使用jsoup抓取简书的内容

抓取的是我博客的文章标题和链接,使用map存储,直接附上代码:

/*
 * 时间:2016年十月
 * 作者:刘袆飞
 * 一个练习,使用jsoup获取我的简书的所有文章题目和链接信息
 */
package jsoup.com;

import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.jsoup.nodes.Element;
import java.util.*;

public class Main {
    public static void main(String[] args){

        try {
                       //申请两个元素集合,title存储获取到的分页数据,link存储UI中的数据
            Elements title = null;
            Elements link = new Elements();
            
            //存储获取到的数据,<链接作为KEY,text作为值>
            Map<String,String> map = new HashMap<>();
            
            for(int i =0;;i++){
            Document doc = Jsoup.connect("http://www.jianshu.com/users/d2365eff6e41/latest_articles?page="+ i ).get();
            title = doc.getElementsByTag("h4");
            if(title.size() != 0){
                Iterator<Element> it = title.iterator();
                while(it.hasNext()){    
                    link.add(it.next().child(0));
                }
                
                title=null;
            }else
                break;
            }

            //吧元素集合里面的数据存储到map中,链接取完整地址
            Iterator<Element> it = link.iterator();
            while(it.hasNext()){
                Element temp = it.next();
                map.put(temp.attr("abs:href"),temp.text());
            }
            System.out.println(map);
            
        } catch (Exception e) {
            System.out.println(e);
        }       
    }
}

输出如下:

{http://www.jianshu.com/p/4502b2802cf8=ArrayList练习-去掉重复元素, 
http://www.jianshu.com/p/5565e5c59afd=单表替换密码, 
http://www.jianshu.com/p/f23ec9da6ecf=java集合, 
http://www.jianshu.com/p/655c2ea168b0=面向对象练习二, 
http://www.jianshu.com/p/0eb7a2030b6d=java集合-Set, 
http://www.jianshu.com/p/56c9bcc713a2=Killer网卡未正确映射ISP问题解决办法, 
http://www.jianshu.com/p/9e5d38c36373=蒙塔卡罗法计算π, 
http://www.jianshu.com/p/58b92b4a428a=维吉尼亚加密遇到的问题, 
http://www.jianshu.com/p/42b914293435=重装Win7后无法获取更新解决办法, 
http://www.jianshu.com/p/6c65417f1237=我的键盘, 
http://www.jianshu.com/p/ad52b1207a9a=国庆写代码, 
http://www.jianshu.com/p/d9141fccc345=验证哥德巴赫猜想, 
http://www.jianshu.com/p/b3d9c603d2c8=Comparator练习-String按照长度比较, 
http://www.jianshu.com/p/aba38279d14f=Oracle数据库学习整理, 
http://www.jianshu.com/p/d0505d11c819=巧用windows任务栏, 
http://www.jianshu.com/p/5af00815b4e4=vim基本操作命令, 
http://www.jianshu.com/p/83d2f2f8fff5=维吉尼亚加密, 
http://www.jianshu.com/p/73d5494af3fb=维吉尼亚密码加密文件, 
http://www.jianshu.com/p/03f4d1ec9cae=PL/SQL笔记, 
http://www.jianshu.com/p/644b42f87896=键盘党的网页浏览--Vimium, 
http://www.jianshu.com/p/76107670e975=面向对象练习三, 
http://www.jianshu.com/p/4989b9107a2e=Windows下使用蓝灯(lantern)后部分软件无法上网问题, 
http://www.jianshu.com/p/f70c6424dab3=泛型}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,966评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,833评论 19 139
  • 最近,我犯了个规矩——去闺蜜单位上班。 大家都是成年人 了,很多问题就得提前想到,去之前,我们就讨论过在单位相处的...
    硕硕66阅读 3,841评论 0 2
  • 吃过晚饭,我对4岁的儿子说:“妈妈教你三字经吧。”说着我拿出了早已为他准备好的三字经念了起来…… “人之初...
    猫让忍阅读 1,657评论 0 1
  • 我很喜欢看电视,电视里的那些小动物们一个一个都会说话,真是有趣极了,我是百看不厌。但是妈妈很少让我看电视,她说对视...
    利萍阅读 4,134评论 0 0

友情链接更多精彩内容