scrapy框架介绍及操作流程

scrapy介绍

Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,可以再settings中通过配置完成很多反爬虫,若需要额外功能,Scrapy还提供了多种中间件。Scrapy 使用了 Twisted['twɪstɪd] 异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

Scrapy架构图

scrapy.png

Scrapy框架主要有五个模块以及中间件:

  • 1.Scrapy Engine(Scrapy引擎)

Scrapy Engine是用来控制整个爬虫系统的数据处理流程,并进行不同事物触发

  • 2.Scheduler(调度器)

Scheduler维护着待爬取的URL队列,当调度器从Scrapy Engine 接受到请求时,会从待爬取的URL队列中取出下一个URL返还给他们。

  • 3.Downloader(下载器)

Downloader从Scrapy Engine那里得到需要下载的URL,并向该网址发送
网络请求进行页面网页,最后再将网页内容传递到Spiders来处理。如果需要定制更复杂的网络请求,可以通过Downloader中间件来实现,比如selenium浏览器完成免登录操作。

  • 4.Spiders(蜘蛛)

Spiders 是用户需要编辑代码的部分,用户通过编写spider.py这个类实现
指定要爬取的网站地址、定义网址过滤规则、解析目标数据等。Spider发送请求,并处理Scrapy Engine从下载器那得到的数据,把解析的数据以item的形式传递给Item Pipeline,把解析到的链接传递给Scheduler。

  • 5.ltem Pipeline(项目管道)

ltem定义了爬虫要爬取的数据的数据的字段,类似于关系型数据库中表的字段名,用户编写item.py文件来实现这一功能。Pipeline主要负责处理Spider从网页中抽取的item,对item进行清洗、验证,并且将数据持久化,如将数据存入数据库或者文件。用户可以在这里连接数据库并进行保存。

  • 6.Downloader middlewares(下载器中间件)

Downloader middlewares是位于Scrapy Engine 和Downloader之间的钩子框架,主要是处理Scrapy Engine与Downloader之间的请求及响应。可以代替接受请求、处理数据的下载以及将结果响应给Scrapy Engine。

  • 7.Spider middlewares(蜘蛛中间件)

Spider middlewares是介于Scrapy Engine和Spiders之间的钩子框架,主要是处理Spiders的响应输入和请求输出。可以插入自定义的代码来处理发送给Spiders的请求和返回Spider获取的响应内容和项目。

操作流程

首先从初始 URL 开始,Scheduler 会将其交给 Downloader,Downloader向网络服务器发送服务请求进行下载,得到响应后将下载的数据交给Spider,Spider会对网页进行分析,分析出来的结果有两种:一种是需要进一步抓取的链接,这些链接会被传回 Scheduler;另一种是需要保存的数据,它们则被送到 Item Pipeline,Item会定义数据格式, 最后由Pipeline对数据进行清洗、去重等处理后存储到文件或数据库。
Scrapy数据流是由执行的核心引擎(engine)控制,

  • 1.引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
  • 2.引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
  • 3.引擎从调度那获取接下来进行爬取的页面。
  • 4.调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
  • 5.当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
  • 6.引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
  • 7.蜘蛛处理响应并返回爬取到的item,然后给引擎发送新的请求。
  • 8.引擎发送处理后的item到项目管道,然后把处理结果返回给调度器,调度器计划处理下一个请求抓取。
  • 9.系统重复2-9的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

使用方法

  • 创建爬虫项目
scrapy startproject 项目名称
  • 创建爬虫文件\域名
scrapy genspider jobbole 文件名称\.com
根据目标网站分析需要提取的数据,在item.py文件中添加字段
  • 打开所创的文件下的item.py文件
  • item 定义结构化数据字段,用来保存爬取到的数据,有点像Python中的dict,但是提供了一些额外的保护减少错误。
  • 可以通过创建一个 scrapy.Item 类,并且定义类型为 scrapy.Field的类属性来定义一个Item(可以理解成类似于ORM的映射关系)
  • 制作爬虫
    打开 项目下/spider目录里的 jobbole.py,默认增加了下列代码:
# -*- coding: utf-8 -*- 
import scrapy 

class JobboleSpider(scrapy.Spider): 
    name = 'jobbole' 
    allowed_domains = ['爬虫文件域名'] 
    start_urls = ['起始URL'] 

def parse(self, response): 
    pass

以上代码解释

  • name = "" :这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。
  • allow_domains = [] 是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页,不存在的URL会被忽略。
  • start_urls = () :爬取的URL元祖/列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
  • parse(self, response) :解析的方法,每个初始URL完成下载后将被调用,调用的时候传入从每一个URL传回的Response对象来作为唯一参数,主要作用如下:
    • 负责解析返回的网页数据(response.body),提取结构化数据(生成item)
    • 生成需要下一页的URL请求。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容