WebMagic学习(三)之Pipeline保存结果

爬虫获取的数据,如何进行展示或者保存?
WebMagic用于保存结果的组件叫做Pipeline。WebMagic有许多内置的Pipeline。

  • ConsolePipeline
    控制台输出结果
ConsolePipeline输出
  • JsonFilePipeline
    将结果用Json的格式保存下来,每个URL保存一个json文件。
 public JsonFilePipeline() {
        this.setPath("/data/webmagic");
    }
 public JsonFilePipeline(String path) {
        this.setPath(path);
    }

JsonFilePipeline的构造方法,提供了存储路径的输入,默认路径为 /data/webmagic。
实现代码及效果截图如下:

public static void main(String[] args) {
        Spider.create(new GankRepoPageProcessor())
                .addUrl("http://gank.io")//从该url开始
                .addPipeline(new JsonFilePipeline("/Users/cmcs303/Desktop/crawler/"))
                .thread(5)
                .run();
    }
效果截图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容