关于网页爬虫的想法

整体思考

  • 分为如下三个模块:采集-过滤-存储。
  • 各个模块相互独立,按照需求可定制开发,不同模块组装起来满足不同需求。
  • 三个模块组合简单,只需修改配置实现不同网站爬取。


    思路.png

扩展

  • 支持增量爬取
  • 支持中断,重启继续爬取

结束

追求极简,完美的不如适合自己的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容