scrapy框架

scrapy框架的几大模块：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

创建爬虫项目：

scrapy startproject 爬虫项目名称
生成项目文件：
scrapy genspider qidian qidian.com
scrapy genspider -t crawl ziru ziroom.com（通用爬虫）

运行项目：

在项目中spiders文件中运行scrapy crawl 项目名称（不加后缀）

目前对于学习框架出现的问题：

对于框架的操作，爬取数据基本上没问题，可能对于复杂的接口寻找URL比较费劲，还有对mogdb数据库操作不熟悉，数据存到mogdb数据库不会使用，对于管道不是很理解写法。

scrapy框架

scrapy框架的几大模块：

创建爬虫项目：

运行项目：

目前对于学习框架出现的问题：

推荐阅读更多精彩内容