scrapy框架

scrapy框架的几大模块:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

创建爬虫项目:

scrapy startproject 爬虫项目名称
生成项目文件:
scrapy genspider qidian qidian.com
scrapy genspider -t crawl ziru ziroom.com(通用爬虫)

运行项目:

在项目中spiders文件中 运行scrapy crawl 项目名称(不加后缀)

目前对于学习框架出现的问题:

对于框架的操作,爬取数据基本上没问题,可能对于复杂的接口寻找URL比较费劲,还有对mogdb数据库操作不熟悉,数据存到mogdb数据库不会使用,对于管道不是很理解写法。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 直接上图(爬虫架构图) ① Scrapy Engine(引擎) 引擎负责控制数据流在系统中所有组件中流动,并在相应...
    Lrrrrtt阅读 491评论 0 0
  • Scrapy 框架基本了解以及Spiders爬虫,首先我们先了解下Scrapy 框架基本原理,然后我们用一个简单的...
    博行天下阅读 4,614评论 7 46
  • 一个完整的爬虫程序,应该包含五个部分,分别是负责url链接管理的URL管理器,负责获取网络数据的Downloade...
    zhile_doing阅读 351评论 0 1
  • (一) 这种感觉就像是 在一堆长耳朵的兔子里头, 戴了好久的假耳朵的我, 被一把抓下来 “快来看,它是短耳朵” 你...
    曹小北阅读 970评论 0 0
  • 圖文/金金 每個人都有自己的属性! 一個人身上的自然屬性多了社會屬...
    悠然随笔阅读 183评论 3 2