一、WebMagic简介
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。
WebMagic框架包含四个组件,PageProcessor、Scheduler、Downloader和Pipeline。
这四大组件对应爬虫生命周期中的处理、管理、下载和持久化等功能。
这四个组件都是Spider中的属性,爬虫框架通过Spider启动和管理。
四大组件:
PageProcessor
负责解析页面,抽取有用信息,以及发现新的链接。需要自己定义。
Scheduler
负责管理待抓取的URL,以及一些去重的工作。一般无需自己定制Scheduler。
Pipeline
负责抽取结果的处理,包括计算、持久化到文件、数据库等。
Downloader
负责从互联网上下载页面,以便后续处理。一般无需自己实现。
地址:http://webmagic.io/
文档地址:http://webmagic.io/docs/zh/posts/ch1-overview/
二、Maven依赖
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
三、简单示例
需求:
网址:https://www.cnblogs.com/
抓取博客园首页贴子作者名称。
-
网站分析
1)首页分析
# 格式
https://www.cnblogs.com/it-carry/p/11987576.html
https://www.cnblogs.com/lenve/p/11987428.html
2)二级页面分析
https://www.cnblogs.com/it-carry/p/11987576.html
- 代码编写
/**
* 实现PageProcessor接口,重写process方法与getSite方法
*/
public class WebMagicProcessor implements PageProcessor {
// 抓取网站的相关配置,包括编码、抓取间隔、重试次数等
private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
// 处理数量
private static int count =0;
public static void main(String[] args) {
long startTime, endTime;
System.out.println("开始爬取...");
startTime = System.currentTimeMillis();
// 创建爬虫,设置站点地址为:https://www.cnblogs.com/,并启动5个线程
Spider.create(new WebMagicProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
endTime = System.currentTimeMillis();
System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了"+count+"条记录");
}
/**
* 获取站点page,并进行匹配
* @param page
*/
@Override
public void process(Page page) {
// 判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式
if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
// 加入满足条件的链接
page.addTargetRequests(
// 获取ID为 post_list 中的链接
page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all());
//获取页面需要的内容
System.out.println("抓取的内容:"+
// ID 为Header1_HeaderTitle中的文本
page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
);
count ++;
}
}
/**
* 获取站点
* @return
*/
@Override
public Site getSite() {
return site;
}
}
-
抓取结果
四、Downloader
Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。
五、PageProcessor
PageProcessor负责解析页面,抽取有用信息,以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。
在这四个组件中,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制的部分。
六、Scheduler
Scheduler负责管理待抓取的URL,以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL,并用集合来进行去重。也支持使用Redis进行分布式管理。
除非项目有一些特殊的分布式需求,否则无需自己定制Scheduler。
七、Pipeline
Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。
Pipeline定义了结果保存的方式,如果你要保存到指定数据库,则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。