一、WebMagic简介

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。
WebMagic框架包含四个组件，PageProcessor、Scheduler、Downloader和Pipeline。
这四大组件对应爬虫生命周期中的处理、管理、下载和持久化等功能。
这四个组件都是Spider中的属性，爬虫框架通过Spider启动和管理。
四大组件:
PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。需要自己定义。
Scheduler 负责管理待抓取的URL，以及一些去重的工作。一般无需自己定制Scheduler。
Pipeline 负责抽取结果的处理，包括计算、持久化到文件、数据库等。
Downloader负责从互联网上下载页面，以便后续处理。一般无需自己实现。

地址：http://webmagic.io/
文档地址：http://webmagic.io/docs/zh/posts/ch1-overview/

二、Maven依赖

<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>0.7.3</version>
</dependency>
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>0.7.3</version>
</dependency>

三、简单示例

需求：
网址：https://www.cnblogs.com/
抓取博客园首页贴子作者名称。

网站分析
1）首页分析

链接

# 格式
https://www.cnblogs.com/it-carry/p/11987576.html
https://www.cnblogs.com/lenve/p/11987428.html

源码分析

2）二级页面分析
https://www.cnblogs.com/it-carry/p/11987576.html

获取作者名称

代码编写

/**
 *  实现PageProcessor接口，重写process方法与getSite方法
 */
public class WebMagicProcessor implements PageProcessor {
    // 抓取网站的相关配置，包括编码、抓取间隔、重试次数等
    private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
    // 处理数量
    private static int count =0;

    public static void main(String[] args) {
        long startTime, endTime;
        System.out.println("开始爬取...");
        startTime = System.currentTimeMillis();
        // 创建爬虫，设置站点地址为：https://www.cnblogs.com/，并启动5个线程
        Spider.create(new WebMagicProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
        endTime = System.currentTimeMillis();
        System.out.println("爬取结束，耗时约" + ((endTime - startTime) / 1000) + "秒，抓取了"+count+"条记录");
    }

    /**
     * 获取站点page，并进行匹配
     * @param page
     */
    @Override
    public void process(Page page) {
        // 判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式
        if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
            // 加入满足条件的链接
            page.addTargetRequests(
                    // 获取ID为 post_list 中的链接
                    page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all());
            //获取页面需要的内容
            System.out.println("抓取的内容："+
                    // ID 为Header1_HeaderTitle中的文本
                    page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
            );
            count ++;
        }
    }

    /**
     * 获取站点
     * @return
     */
    @Override
    public Site getSite() {
        return site;
    }
}

抓取结果

抓取结果

四、Downloader

Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

五、PageProcessor

PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。
在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

六、Scheduler

Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。
除非项目有一些特殊的分布式需求，否则无需自己定制Scheduler。

七、Pipeline

Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。
Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

Java爬虫--WebMagic框架(一)