Scrapy功能介绍

scrapy是一个为爬取网站,提取结构化数据而创建的一个爬虫框架,scrapy基于python,是目前python社区最流行的爬虫框架之一 (github 3W+ star)
近期由于工作需要(这份工作涉及一些数据抓取的工作需要了解爬虫),要将引入一个爬虫框架来小组当中使用,前期的数据抓取主要是一些网页和数据库接口的daily updates,开发人员各自构造单独的python脚本使用requests、beautifulsoup来解析网页内容,由于一般需要获取的网页内容并不复杂(多为网页上面的表格内容),所以前期未使用所谓的爬虫框架也满足需求。但后续可能需要一次性抓取大量数据,以及实现一些复杂的页面跳转逻辑,可能就需要借助爬虫框架进行开发。
经过几天的调研对比,总结了使用scrapy对于项目组开发的好处:

  • 对于所有爬虫任务使用统一的爬虫框架,每个任务创建相应的spider,规范代码结构,并且提供开发维护效率
  • scrapy拥有良好的并发性能,能胜任数据量较大的爬虫任务,再不存在反爬的情况下可以轻松达到上千的QPS,同时可以实现多层级、较为复杂的爬虫逻辑
  • scrapy自带了shell调试工具,可以方便的进行网页内容捕获的测试
  • scrapy自带了较好的状态日志系统,可以方便的针对爬虫任务的爬取量、实时速率、失败请求进行分析,统计

Scrapy框架

scrapy_architecture_02.png

scrapy的主要组件包括Spiders、Engine、Scheduler、Downloader以及Item pipeline,其中Engine控制所有数据在各组件之间的流动,一个爬虫请求在Scrapy当中的处理过程大致如下:

  1. Engine从Spider接收到第一个Request
  2. Engine将刚刚接收到的Request转发至Scheduler队列当中,同时询问Scheduler下一个将要爬取的Request(异步执行)
  3. Scheduler将队列当中下一个Request发送给Engine
  4. Engine将Request转发至Downloader,Downloader根据Request的信息获取网站内容
  5. Downloader获取了完整的网站信息,生成一个Response返回给Engine
  6. Engine将Response转发给Spider
  7. Spider获得Response并对其进行处理,处理完Response之后生成Item(结构化数据),或者根据新的ulr返回Request,将其发送到Engine
  8. Engine将Item转发至Item Pipeline当中,Item Pipeline将会对Item做数据加工、数据转储等处理,同时Engine将接收到的Request转发至Scheduler队列当中
  9. 从第1步开始重复执行,直到Scheduler队列当中没有Request需要处理为止

在Engine与Spider之间,Engine与Downloader之间存在一些中间件,可以再Spider、Downloader处理Request/Response之前做一些预处理,例如可以配置一个爬虫代理作为Downloader Middleware, 这样在每一次Downloader访问目的网站的时候就会自动添加上代理


组件功能介绍

  • Engine: 控制数据在scrapy当中的流向,并在相应动作时触发时间。例如Engine会将Scheduler队列当中的下一个Request转发至Downloader当中,在转发Request、Response至Spider之前先调用中间件
  • Spider: 用户编写的用于处理网页内容并提取Item/Request的组件,scrapy当中可以有多个Spider,每个Spider负责一种特定类型的网页或网站。在Spider当中用户需要定义网页的解析逻辑,构造Item或者是构造更深层网页的Request,同时可以在Spider当中定义针对单个Spider的配置,配置包括绑定特定的中间件、Item pipeline,以及配置并发参数等
  • Scheduler: 调度器从Engine接收Request并将其加入到队列当中,调度器当中主要包含指纹过滤器以及队列功能组件,其中指纹过滤器用于过滤重复的Request请求,队列用于排队Request任务
  • Downloader: 下载器的功能非常简单,根据接收到的Request请求,访问相应的地址获取网页内容,Downloader是通过将Request任务注册到Twisted的Reactor来实现并发获取网页内容的
    · Item pipeline: 负责处理被Spider提取出的Item,例如针对Item做格式转换,写入文件,存入数据库

名词概念介绍

一些scrapy的概念(组件之下的一些基本概念)
命令行工具: 在安装好scrapy之后,系统会自动指定scrapy包的cmdline当中的execute方法为命令执行的入口

命令 作用
scrapy start project [project name] 初始化创建一个scrapy项目
scrapy crawl [spider_name] 运行一个spider
scrapy shell [url] 使用下载器获取指定url的内容,同时进入命令行交互界面供用户进行调试

Selector:使用Selector从HTML/XML源码房中提取数据,scrapy中的Selector支持使用xpath或者css语法来选择网页数据
Item:爬虫的目标是从非结构化的数据源当中提取结构化的数据,因此scrapy提供了item来作为结构化数据的承载对象,item提供了类字典形式的api供用户使用
Item Exporter: 将爬取的Item以文件的方式生成,以供其他系统使用,scrapy支持多种序列化方式和文件格式,包括Josn、Json Lines、CSV、XML。 scrapy自带了CSVItemExporter、JSONItemExporter、XMLItemExporter等Exporter对象,可以接受由Spider返回的Item对象,将Item写入指定路径的文档当中,一般Item Exporter会在Item pipeline中被使用

  • defaut_setting: 针对整个Scrapy库的默认配置,默认配置文件位于scrapy库中的setting目录下,涵盖了scrapy中的所有默认配置,包括框架的一些性能参数,还对scrapy的各个组件进行了配置化定义,前面讲到的Spider、Downloader、Scheduler、Item pipeline几大组件,还有各种中间件,在Engine初始化的时候会先读取default_setting再绑定各个组件
  • setting: 针对整个scrapy项目的配置文件,配置文件位于scrapy项目根目录下,用于定义整个项目的配置,例如定义项目统一的名称、user_agent等参数
  • custom_setting: 针对单个Spider的配置,以用户自定的Spider Class的类变量的形式配置,配置参数仅对单个Spider生效,一般可以再custom_setting当中定义代理、并发数,以及绑定自定义的item pipeline、middleware

Scheduler队列: Scheduler将Engine转发的所有Request放入队列当中用于后续调度,队列包括两种类型:

  • 内存队列(默认实现方式): 队列信息保存在内存当中,当scrapy停止运行时,当前队列当中的所有信息将会被清除
  • 磁盘队列: 队列信息保存在磁盘当中,当scrapy停止之后不会被清除,可以再持久化爬取大量url的时候使用此种队列,可以在运行scrapy的时候加上-s JBDIR=[path] 的方式使用磁盘队列

Scheduler队列的默认调度规则是LIFO(后入先出),在Spider爬取网站的时候,最深层的ulr可能会最先从队列中抽取到Downloader当中进行下载,也就是说默认爬取策略是深度优先的。同时Scheduler也支持FIFO(先入先出),即广度优先的爬取策略,可以再default_setting当中修改队列参数来指定这两种不同的调度规则
Concurrent_Request: 最大并发请求数,是关系爬虫爬取速率的关键参数,主要由配置当中的四个配置参数影响:

  • CONCURRENT_REQUESTS: 在custom_setting当中配置此参数即可定义单个Spider的最大并发请求数,例如配置最大并发请求数为40,则在Downloader中最大将40个URL放入下载队列
  • DOWNLOAD_DELAY: 定义请求与请求之间的下载间隔,例如定义间隔为2s,则Downloader再将一个URL放入下载队列当中后,会等待2s再将下一个URL放入下载队列
  • CONCURRENT_REQUESTS_PER_DOMAIN: 对于单个域名的最大并发请求数
  • CONCURRENT_REQUESTS_PER_IP: 对于单个IP的最大并发请求数

scrapy是基于Twisted来实现网络并发的,由于python GIL的存在,网络并发本质上是一个单线程的事件循环,在downloader处理请求的下载的时候,会针对每个下载任务绑定回调函数,然后将这个下载任务放入一个循环的队列当中,当请求下载完毕后再调用其绑定的回调函数取出下载结果

爬虫代理: 现在大部分的网站的服务器都会有反爬措施,一般来说网站服务器会根据客户端访问的频率来判断是否为普通用户或者是爬虫,如果单个IP的访问频率过高,则很有可能会被网站识别为爬虫而遭到封禁。对于这种网站可以考虑使用爬虫代理来进行爬取,代理的原理是使用一个动态的IP地址池来发送Request,避免同一源地址发送过多的Request导致源地址被目标网站封禁,同时代理会修改Request的http头部信息,让目标网站无法检测到是通过代理来发送Request的
user_agent: user-agent信息会被写入到http header当中,网站服务器通过检测user-agent可以识别访问的客户端是什么,如果不设置user-agent,爬虫程序将会使用默认的参数,可能会被目标服务器识别为爬虫程序,通常情况下需要修改user-agent为浏览器的信息,让对端认为是浏览器正常访问
Scrapy shell: scrapy用于调试的命令行,根据输入的url使用下载器下载好网页内容,同时进入交互式命令行,在scrapy shell中可以操作request、response、spider对象,例如可以操作response对象,调用相应的css、xpath来解析网页,检查css、xpath表达式是否正确

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容

  • 引言 在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫,这篇记录了使用Scrapy-Redis将其重...
    朱晓飞阅读 6,700评论 1 24
  • 本主题主要是scrapy入门,包含内容如下:  1. Scrapy框架环境搭建;  2. 理解scrapy框架结...
    杨强AT南京阅读 1,337评论 0 10
  • 有些人近在咫尺,却远在天涯。 有些人遥不可及,却尽在心田。 有些人只看一眼,却似曾相识。 有些人朝夕相处,却冷若冰...
    千古东方阅读 439评论 0 6
  • 老金 你好啊 很久没有来跟你聊了,对不起。 这学期后半段我开始变得很忙,虽然忙但是没有什么显著的进步。也许是托你的...
    三佘彡余阅读 115评论 0 0
  • 1.操作数据库 (1)创建数据库 CREATE DATABASE [IF NOT EXISTS] db_name ...
    newdolphintime阅读 772评论 0 1