登录注册写文章

分布式爬虫架构设计与实现

分布式爬虫架构设计与实现

由于scrapy框架需要更多的学习成本，还有分布式爬虫也需要redis来实现，调度方式也不是很符合业务要求，于是就自己设计了个分布式爬虫架构。

架构图如下：

架构图

爬虫的客户端为tornado编写的服务，爬虫管理器也是tornado编写的后台管理服务，主要功能：获取客户端的状态信息，爬虫进程数量，启动指定数量的爬虫进程，中断、重启爬虫，爬虫异常通知等。

爬虫进程与调度器间的请求非常频繁，所以使用socket长连，获取优先级高的队列，调度器的优先级算法，根据业务需求来编写。

消息队列使用rabbitmq，而不用redis，因为rabbitmq的消息确认机制，能够保证每个要爬的url都能被成功请求，不会因为某些异常而导致数据漏爬。

爬回的数据看业务需求，可以直接入库，或者放入Kafka。建议先不进行数据清洗，避免偶尔数据清洗错误时，又要重新爬取。

求offer：php,python后端，或者爬虫

欢迎一起交流学习

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

基于Scrapy分布式爬虫的开发与设计
这个项目也是初窥python爬虫的一个项目，也是我的毕业设计，当时选题的时候，发现大多数人选择的都是网站类，实在是...
梦航韩语阅读 3,066评论 2赞 37
分布式网络数据抓取系统设计与实现
分布式网络数据抓取系统设计与实现 1、分布式网络数据抓取系统说明（1）深入分析网络数据(金融、教育、汽车类)爬虫...
唐三七五阅读 3,176评论 1赞 1
基于 Scrapy-redis 的分布式爬虫设计
目录前言安装环境Debian / Ubuntu / Deepin 下安装Windows 下安装基本使用初始化...
无口会咬人阅读 7,622评论 2赞 45
(五)scrapy-redis分布式爬虫项目实战
scrapy-redis分布式组件由多台机器协同完成一个任务，从而缩短任务的执行时间优点: 提升了项目的整体速度...
__method__阅读 1,142评论 0赞 0
Swift 构造器(Initialization)
关于swift中的构造器规则还是比较复杂的，什么指定构造器(designed initializer), 便利构...
JamesSawyer阅读 590评论 0赞 0

赞1赞

赞赏

手机看全文