Scrapy爬虫框架解析

scrapy_architecture

Engine：Scrapy爬虫框架的控制中心
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改
Downloader：Scrapy爬虫框架的下载中心，根据发送过来的url下载网页
- 根据请求下载网页
- 不需要用户修改
Scheduler：Scrapy爬虫框架的url管理中心，如调度url的爬取顺序等
- 对所有爬取请求进行调度管理
- 不需要用户修改
Downloader Middleware
- 目的：实施Engine, Scheduler和Downloader之间进行用户可配置的控制
- 功能：修改、丢弃、新增请求或响应
- 用户可编写配置代码
Spider：最重要的模块，需要自己编写，解析请求网页返回的内容。
- 解析Downloader返回的响应(response)
- 产生爬取项(scraped item)
- 产生额外的爬取请求(Request), 指新的url
- 需要用户编写配置代码
Item Pipelines：对爬取的数据进行数据处理
- 以流水线方式处理Spider产生的爬取项
- 由一组操作顺序组成，每个操作是一个Item Pipeline类型
- 可能操作包括：清理和检查爬取项中的HTML数据、将数据存储到数据库
- 需要用户边写代码
Spider Middleware
- 目的：对请求和爬取项的再处理
- 功能：修改、丢弃、新增请求或爬取项
- 用户可编写配置代码
Item: 定义用户需要爬取的数据形式

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。