scrapy框架

image.png

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
Downloader Middlewares(下载中间件):是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

scrapy startproject 爬虫项目名称

  • 新建一个新的爬虫

  • 明确目标

编写items.py):明确你想要抓取的目标

  • 制作爬虫

scrapy genspider 爬虫文件名称 域名:制作爬虫开始爬取网页

  • 存储内容

pipelines.py):设计管道存储爬取内容

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • #scrapy框架是什么: #####scrapy是用纯Python实现的一个为了爬去网站数据,提取结构数据而编写...
    han呐阅读 2,713评论 0 0
  • scrapy框架的流程图2018-11-01框架流程图 1、scrapy框架主要为个块      (1)Scrap...
    dream_seeker阅读 4,594评论 0 1
  • 【墨香花好梦】 【瀚墨飘香】 和著名画家李玉龙合影畄念 【闻香神欲醉】 [洛阳三月春消息,在我浓烟淡墨中] 今年是...
    丹青堂赵宪文阅读 3,359评论 0 6
  • 昨晚梦到了妈妈! 她笑盈盈的朝我走过来,手里拿着一朵我叫不出名的花儿,咋一看是紫色的,紫藤萝的那种紫,我最爱了。妈...
    乙丑牛牛阅读 1,598评论 0 2

友情链接更多精彩内容