爬虫获取的数据,如何进行展示或者保存?
WebMagic用于保存结果的组件叫做Pipeline。WebMagic有许多内置的Pipeline。
- ConsolePipeline
控制台输出结果
- JsonFilePipeline
将结果用Json的格式保存下来,每个URL保存一个json文件。
public JsonFilePipeline() {
this.setPath("/data/webmagic");
}
public JsonFilePipeline(String path) {
this.setPath(path);
}
JsonFilePipeline的构造方法,提供了存储路径的输入,默认路径为 /data/webmagic。
实现代码及效果截图如下:
public static void main(String[] args) {
Spider.create(new GankRepoPageProcessor())
.addUrl("http://gank.io")//从该url开始
.addPipeline(new JsonFilePipeline("/Users/cmcs303/Desktop/crawler/"))
.thread(5)
.run();
}