登录注册写文章

scrapy初探（一）框架

scrapy初探（一）框架

框架

以下是scrapy的框架，绿色箭头表示数据流向。

timg.jpeg

一、详细介绍：

scrapy Engine
爬虫引擎负责控制数据流在系统中的所有组件中流动，并在相应动作发生时触发事件。

调度器（Scheduler）
调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

Spiders
Spiders是scrapy用户编写用于分析response并提取item或额外跟进的url的类。

Item Pipeline
Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证和保存数据。

下载器中间件（Downloader middlewares）
下载中间件是在引擎及下载器中间的特定钩子，处理Downloader传递给引擎的response。

Spider中间件（Spider middlewares）
Spider 中间件是在引擎及Spider之间的特定钩子，处理spider的输入（reponse）和输出（items及requests）。

二、数据流（Data flow）

引擎打开一个网站，找到处理该网站的spider并向该spider请求第一个要爬取的URL。
引擎从spider中获取到第一个要爬取的URL并在调度器（scheduler）以request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件（请求request方向）转发给下载器。
页面下载完毕，下载器生成一个该页面的response，并将其通过下载中间件（返回方向）发给引擎。
引擎从下载器中接受到response并通过spider中间件发送给spider处理。
spider处理response并返回爬取的item和新的reponse给引擎。
引擎将spider返回的item给item pipeline，将spider返回的resquest给调度器。
（从第二步）重复直到调度器中没有request。

最后编辑于：2017.12.13 17:17:04

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 13,199评论 4赞 46
【scrapy】学习Scrapy入门
Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信...
JasonDing阅读 122,885评论 15赞 126

Scrapy爬取豆瓣电影Top250
这两天摸索了下scrapy，刚看文档的时候觉得有点生无可恋，scrapy框架个人还是觉得比较难懂的，需要学习的地方...
Treehl阅读 5,873评论 7赞 10
Pure Love
世间有一种爱，叫乔任梁对陈乔恩的爱
少女的Secret阅读 275评论 0赞 0
真正懂的人，是值得珍惜的。
〔20170829〕晨读感悟一生之中，有一个懂你的人便是最大的幸福。懂你，是了解你成功背后的艰辛，是清楚你坚强...
xz蓝天阅读 189评论 0赞 2

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文