scrapy 小结

1.scrapy框架的用途:

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd] 异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

2.scrapy 框架的功能:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

3.scrapy的安装方式:sudo pip3 install scrapy

4.scrapy框架的使用:

1.创建项目:scrapy startproject myspider

2.创建爬虫文件:scrapy genspider 爬虫文件名字  爬取网站的域

5.爬虫的分类:通用爬虫        聚焦爬虫

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • #scrapy框架是什么: #####scrapy是用纯Python实现的一个为了爬去网站数据,提取结构数据而编写...
    han呐阅读 350评论 0 0
  • 没人愿意透过肥肉去欣赏你的灵魂,加油,这几天没跑步的后果,触目惊心,加油吧!找回逝去的青春!
    VVSAMA阅读 81评论 0 0
  • 气氛很尴尬,团子出现得很是时候,白浅干笑两声,将团子拉至跟前儿,一边取出帕子为他揩汗,一边正经道:“滚滚是你凤九姐...
    与花_如笺阅读 3,213评论 2 15
  • alfred设置中选择Terminal/Shell,Application选择custom 然后在下面的框中填入下...
    喷气式蜗牛阅读 2,610评论 0 4
  • “我坐过一种长途客车,当时我对面的孩子,直接把尿,尿在了一个塑料袋里,家长把塑料袋挂在了杆子上,我提心吊胆了一路....
    社长从来不假装阅读 484评论 3 1