在上一篇文章,我们已经简单介绍爬虫框架webmagic的一些简单情况!
接下来呢,我就要开始详细的诠释一下,我对webmagic的一些简单理解了。
首先呢,上一章节说道了,pipeline 是webmagic 的数据管道,我们接下来就来说说这个数据管道的问题。
这个呢,就是我们查看源码里面,webmagic已经提供的一部分,数据出口的方式了,其中两个,是接口,三个是类。 我们就开始简单介绍一下,这些东西。
这个呢,就是我们看到的,pipeline 接口了,里面只有一个方法,就是数据的出口管道的地方了。
这个呢,就是我们看到的Filepipeline里面的东西了,还是一个数据出口。 不过呢,这个好像是直接保存成文件了,构造方法里面就可以简单的看出,传递进来的是一个文件的路径了。
这个就比较简单了,控制台打印嘛,有什么看不懂的。
这像是把所有解析到的数据都要传递到这个list里面啊,然后由外部调用重新再调用出去!
如果这些呢,都不太符合你的需求的话,在webmagic-extension里面还存在很多的哦,总有一个适合你!
https://blog.csdn.net/qq_36783371 一个大佬写的博客,欢迎去砸鸡蛋!