爬取简书新上榜列表文章

最近在看爬虫相关的知识,本人学的是Java,google了一下,看到webmagic框架,使用起来还是蛮简单的,于是小试牛刀,想爬简书新上榜的所有文章,分析思路如下(代码在最后):
首页: http://www.jianshu.com/recommendations/notes?category_id=56
文章结构列表如下图:

简书新上榜列表

此处以抓取文章标题和链接演示。
首页全部文章列表:注意最后一个红框的id,后面有用到

全部文章列表

滚动加载第二页,看发起的请求:

滚动加载第二页

链接在首页的基础上加了两个参数,max_id和page,page容易理解,页码,主要是要找max_id的变化规律,通过继续滚动和点击加载更多发现,max_id是在最后一次文章的 id - 1,如第二张图红框所示,规律找到以后就简单了,直接撸代码。
1、JianShuNewHotProcessor.java

package com.test.spider.common;

import com.test.spider.po.News;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.List;

/**
 * Created by Administrator on 2017/1/20.
 */
public class JianShuNewHotProcessor implements PageProcessor{
    
    //下一页
    public String more_url = "http://www.jianshu.com/recommendations/notes?category_id=56&max_id=%d&page=%d";
    //页码计数器
    private int count = 1;

    private Site site = Site.me()
            .setDomain("jianshu.com")
            .setSleepTime(2000)
            .setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");


    @Override
    public void process(Page page) {
        //model
        News news = null;
        //获取文章列表的所有li节点
        List<Selectable> nodes = page.getHtml().xpath("//div[@id='list-container']/ul/li").nodes();
        for(Selectable s : nodes){
            //获取标题
            String title = s.xpath("div[@class='content']/a/text()").toString();
            //获取链接
            String link = s.xpath("div[@class='content']/a").links().toString();
            news = new News();
            news.setTitle(title);
            news.setLink(link);
            page.putField("news_"+title,news);
        }
        //找最后一篇文章的id
        int max_id = Integer.parseInt(nodes.get(nodes.size() - 1).regex("data-recommended-at=\"(\\d+)\"").toString());
        //页码自增
        count++;
        //构建下一页的url
        String nextUrl = String.format(more_url, max_id -1, count);
        //加入下一页的url到抓取url队列
        page.addTargetRequest(nextUrl);
    }


    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new JianShuNewHotProcessor())    //页码处理器,获取页面,解析
                .addUrl("http://www.jianshu.com/recommendations/notes?category_id=56") //入口页,此处为简书新上榜首页
                .addPipeline(new NewsPipeline())    //数据处理(持久化),此处只在控制台打印结果
                .thread(5)      //开启5个线程
                .setExitWhenComplete(true)  //完成后退出
                .start();  //异步启动
    }
}

2、NewsPipeline.java

package com.test.spider.common;

import com.test.spider.po.News;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.util.Map;

/**
 * Created by Administrator on 2017/1/17.
 */
public class NewsPipeline implements Pipeline {
    @Override
    public void process(ResultItems resultItems, Task task) {
        System.out.println("get page: " + resultItems.getRequest().getUrl());
        for(Map.Entry<String,Object> entry : resultItems.getAll().entrySet()){
            if(entry.getKey().contains("news")){
                News news=(News) entry.getValue();
                System.out.println(news);
            }
        }
    }
}

3、News.java

package com.test.spider.po;

/**
 * Created by Administrator on 2017/1/17.
 */
public class News {
    private String title;
    private String link;

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public String getLink() {
        return link;
    }

    public void setLink(String link) {
        this.link = link;
    }

    @Override
    public String toString() {
        return "News{" +
                "title='" + title + '\'' +
                ", link='" + link + '\'' +
                '}';
    }
}

此为本人第一次爬虫,求大牛多多指教~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容