2018-12-04

一、使用场景

在需要爬取的数据量极大的情况下，建议使用scrapy框架。性能好。

二、scrapy工作原理

engine引擎，类似于一个中间件，负责控制数据流在系统中的所有组件之间流动，可以理解为“传话者”
spider爬虫，负责解析response和提取Item
downloader下载器，负责下载网页数据给引擎
scheduler调度器，负责将url入队列，默认去掉重复的url
item pipelines管道，负责处理被spider提取出来的Item数据

1164899-20171121153801946-42545472.png

1、从spider中获取到初始url给引擎，告诉引擎帮我给调度器；

2、引擎将初始url给调度器，调度器安排入队列；

3、调度器告诉引擎已经安排好，并把url给引擎，告诉引擎，给下载器进行下载；

4、引擎将url给下载器，下载器下载页面源码；

5、下载器告诉引擎已经下载好了，并把页面源码response给到引擎；

6、引擎拿着response给到spider，spider解析数据、提取数据；

7、spider将提取到的数据给到引擎，告诉引擎，帮我把新的url给到调度器入队列，把信息给到Item Pipelines进行保存；

8、Item Pipelines将提取到的数据保存，保存好后告诉引擎，可以进行下一个url的提取了；

9、循环3-8步，直到调度器中没有url，关闭网站（若url下载失败了，会返回重新下载）。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2018-12-04

2018-12-04

相关阅读更多精彩内容

友情链接更多精彩内容