scrapy架构图
一、简单介绍下即刻产品
“即刻”产品的官方定义是一款基于兴趣的极简信息推送工具。
即刻从战略层上:解决用户对于信息精准推送的需求。例如,我设置一个主题叫“有豆瓣9.0分以上的新电视剧”,那么豆瓣只有有9.0分以上的新出的连续剧,即刻就会通知我。再比如我喜欢余秋雨,我创建了一个主题叫“又有人在微博提到余秋雨了”,那么一旦有新提到“余秋雨”的新微博内容时,即刻也会通知我。
即刻使用的技术是用爬虫实现其“追踪机器人”——提醒功能,用户关注对应精准细分的主题,即可收到对应主题内容更新的提醒消息。
好,以上简单说明了我们的半竞争产品之后,后面就进入正文——如何设计一款类“即刻”信息订阅推送的爬虫架构。
二、即刻产品创建主题业务分析
先列出在这个业务中设计到的最主要的3个实体:用户、主题、内容源。
一个完整创建主题的业务流程大概分如下几步:
1)创建主题,选择想到追踪的对象——内容源
2)输入搜索的关键词,比如我填写的是“余秋雨”,在下一个步骤你还可以选择你要过滤的关键词,我这块省略了
3)再就是创建主题,如果存在有和你想要创建的相同主题,你可以去关注对应的主题即可
这就是用户创建主题的主要流程。通过这个流程我们大概知道了这里面存在几个关系:
用户可以创建主题,每个主题存在一个或多个追踪对象,每个追踪对象可以设置不同的追踪和过滤条件,用户也可以关注主题。
基于以上业务,我们画一个E-R图。
三、信息订阅推送的爬虫架构设计
有了上面的业务分析,接下来我们就可以看看我们的架构应该怎么样来设计啦。我这里先给出整体架构图。
3.1 分发集群
分发集群有两个任务:
1. 接收后台请求,新增内容源,首先判断内容源是否已存在(通过查询“内容源”表)。若不存在,则将内容源作为爬虫任务放置到定时任务池,并主动提交到爬虫队列。
2. 定时从任务池中获取全部任务,按类型、按级别(现只定义快慢两级)提交到对应爬虫队列。
注:爬虫队列分级是为了更好的消费任务。
快队列指的是拥有更多的消费者,能更快的完成任务,一般用于处理新任务。
慢队列值得是拥有较少的消费者,完成任务的时间慢,一般用于处理异常任务。
3.2 爬虫集群
爬虫集群也有两个任务:
1. 消费队列中的爬虫任务,抓取如title、desc、url等信息存放入数据库。此时,记录应如实对应内容源的内容,不应进行过滤,封装。
2. 完成一次爬虫任务后,提交到装饰任务队列——提供内容源的一次抓取结果(此处应为多条记录),希望将结果按照每个用户的要求过滤和封装。
3.3 装饰集群
装饰集群也有两个任务:
1. 消费队列中的装饰任务,查询“追踪对象表”和“主题表”,获取多种用户需求。对于每个用户,分别将抓取结果过滤和装饰,最后的封装结果按用户入库。
2. 入库成功后,需要远程调用(rmi)搜索引擎(搜索引擎建索引)、云通信(发送移动通知、邮件通知)、动态流(即刻的消息页,动态流需要将主题新更内容分发到对应关注者的“动态流”表中)。
四、爬虫技术实现
目前我这边追踪机器人使用的技术是python的Scrapy框架,分布式实现用的是scrapy-redis。
欢迎有志之士来我司和我一起实现我们产品中的信息订阅环节的工程,订阅环节是我们产品的基础,当然我们的产品远不只是这些。
我希望你有下面的知识点:
1)知道如何利用IDE(推荐PyCharm)调试scrape爬虫程序
2)熟练使用xpath或css选择器获取页面元素
3)知道如何使用selenium进行自动登录
4)熟练利用middleware中间件做ip代理池
5)使用scrapy-redis做过分布式爬虫项目
6)熟悉scrape架构图,熟练使用middleware中间件和信号(Signals)进行扩展开发
7)熟悉各种爬虫、反爬虫攻防策略