scrapy是一个为爬取网站,提取结构化数据而创建的一个爬虫框架,scrapy基于python,是目前python社区最流行的爬虫框架之一 (github 3W+ star)
近期由于工作需要(这份工作涉及一些数据抓取的工作需要了解爬虫),要将引入一个爬虫框架来小组当中使用,前期的数据抓取主要是一些网页和数据库接口的daily updates,开发人员各自构造单独的python脚本使用requests、beautifulsoup来解析网页内容,由于一般需要获取的网页内容并不复杂(多为网页上面的表格内容),所以前期未使用所谓的爬虫框架也满足需求。但后续可能需要一次性抓取大量数据,以及实现一些复杂的页面跳转逻辑,可能就需要借助爬虫框架进行开发。
经过几天的调研对比,总结了使用scrapy对于项目组开发的好处:
- 对于所有爬虫任务使用统一的爬虫框架,每个任务创建相应的spider,规范代码结构,并且提供开发维护效率
- scrapy拥有良好的并发性能,能胜任数据量较大的爬虫任务,再不存在反爬的情况下可以轻松达到上千的QPS,同时可以实现多层级、较为复杂的爬虫逻辑
- scrapy自带了shell调试工具,可以方便的进行网页内容捕获的测试
- scrapy自带了较好的状态日志系统,可以方便的针对爬虫任务的爬取量、实时速率、失败请求进行分析,统计
Scrapy框架
scrapy的主要组件包括Spiders、Engine、Scheduler、Downloader以及Item pipeline,其中Engine控制所有数据在各组件之间的流动,一个爬虫请求在Scrapy当中的处理过程大致如下:
- Engine从Spider接收到第一个Request
- Engine将刚刚接收到的Request转发至Scheduler队列当中,同时询问Scheduler下一个将要爬取的Request(异步执行)
- Scheduler将队列当中下一个Request发送给Engine
- Engine将Request转发至Downloader,Downloader根据Request的信息获取网站内容
- Downloader获取了完整的网站信息,生成一个Response返回给Engine
- Engine将Response转发给Spider
- Spider获得Response并对其进行处理,处理完Response之后生成Item(结构化数据),或者根据新的ulr返回Request,将其发送到Engine
- Engine将Item转发至Item Pipeline当中,Item Pipeline将会对Item做数据加工、数据转储等处理,同时Engine将接收到的Request转发至Scheduler队列当中
- 从第1步开始重复执行,直到Scheduler队列当中没有Request需要处理为止
在Engine与Spider之间,Engine与Downloader之间存在一些中间件,可以再Spider、Downloader处理Request/Response之前做一些预处理,例如可以配置一个爬虫代理作为Downloader Middleware, 这样在每一次Downloader访问目的网站的时候就会自动添加上代理
组件功能介绍
- Engine: 控制数据在scrapy当中的流向,并在相应动作时触发时间。例如Engine会将Scheduler队列当中的下一个Request转发至Downloader当中,在转发Request、Response至Spider之前先调用中间件
- Spider: 用户编写的用于处理网页内容并提取Item/Request的组件,scrapy当中可以有多个Spider,每个Spider负责一种特定类型的网页或网站。在Spider当中用户需要定义网页的解析逻辑,构造Item或者是构造更深层网页的Request,同时可以在Spider当中定义针对单个Spider的配置,配置包括绑定特定的中间件、Item pipeline,以及配置并发参数等
- Scheduler: 调度器从Engine接收Request并将其加入到队列当中,调度器当中主要包含指纹过滤器以及队列功能组件,其中指纹过滤器用于过滤重复的Request请求,队列用于排队Request任务
-
Downloader: 下载器的功能非常简单,根据接收到的Request请求,访问相应的地址获取网页内容,Downloader是通过将Request任务注册到Twisted的Reactor来实现并发获取网页内容的
· Item pipeline: 负责处理被Spider提取出的Item,例如针对Item做格式转换,写入文件,存入数据库
名词概念介绍
一些scrapy的概念(组件之下的一些基本概念)
命令行工具: 在安装好scrapy之后,系统会自动指定scrapy包的cmdline当中的execute方法为命令执行的入口
命令 | 作用 |
---|---|
scrapy start project [project name] | 初始化创建一个scrapy项目 |
scrapy crawl [spider_name] | 运行一个spider |
scrapy shell [url] | 使用下载器获取指定url的内容,同时进入命令行交互界面供用户进行调试 |
Selector:使用Selector从HTML/XML源码房中提取数据,scrapy中的Selector支持使用xpath或者css语法来选择网页数据
Item:爬虫的目标是从非结构化的数据源当中提取结构化的数据,因此scrapy提供了item来作为结构化数据的承载对象,item提供了类字典形式的api供用户使用
Item Exporter: 将爬取的Item以文件的方式生成,以供其他系统使用,scrapy支持多种序列化方式和文件格式,包括Josn、Json Lines、CSV、XML。 scrapy自带了CSVItemExporter、JSONItemExporter、XMLItemExporter等Exporter对象,可以接受由Spider返回的Item对象,将Item写入指定路径的文档当中,一般Item Exporter会在Item pipeline中被使用
- defaut_setting: 针对整个Scrapy库的默认配置,默认配置文件位于scrapy库中的setting目录下,涵盖了scrapy中的所有默认配置,包括框架的一些性能参数,还对scrapy的各个组件进行了配置化定义,前面讲到的Spider、Downloader、Scheduler、Item pipeline几大组件,还有各种中间件,在Engine初始化的时候会先读取default_setting再绑定各个组件
- setting: 针对整个scrapy项目的配置文件,配置文件位于scrapy项目根目录下,用于定义整个项目的配置,例如定义项目统一的名称、user_agent等参数
- custom_setting: 针对单个Spider的配置,以用户自定的Spider Class的类变量的形式配置,配置参数仅对单个Spider生效,一般可以再custom_setting当中定义代理、并发数,以及绑定自定义的item pipeline、middleware
Scheduler队列: Scheduler将Engine转发的所有Request放入队列当中用于后续调度,队列包括两种类型:
- 内存队列(默认实现方式): 队列信息保存在内存当中,当scrapy停止运行时,当前队列当中的所有信息将会被清除
- 磁盘队列: 队列信息保存在磁盘当中,当scrapy停止之后不会被清除,可以再持久化爬取大量url的时候使用此种队列,可以在运行scrapy的时候加上-s JBDIR=[path] 的方式使用磁盘队列
Scheduler队列的默认调度规则是LIFO(后入先出),在Spider爬取网站的时候,最深层的ulr可能会最先从队列中抽取到Downloader当中进行下载,也就是说默认爬取策略是深度优先的。同时Scheduler也支持FIFO(先入先出),即广度优先的爬取策略,可以再default_setting当中修改队列参数来指定这两种不同的调度规则
Concurrent_Request: 最大并发请求数,是关系爬虫爬取速率的关键参数,主要由配置当中的四个配置参数影响:
- CONCURRENT_REQUESTS: 在custom_setting当中配置此参数即可定义单个Spider的最大并发请求数,例如配置最大并发请求数为40,则在Downloader中最大将40个URL放入下载队列
- DOWNLOAD_DELAY: 定义请求与请求之间的下载间隔,例如定义间隔为2s,则Downloader再将一个URL放入下载队列当中后,会等待2s再将下一个URL放入下载队列
- CONCURRENT_REQUESTS_PER_DOMAIN: 对于单个域名的最大并发请求数
- CONCURRENT_REQUESTS_PER_IP: 对于单个IP的最大并发请求数
scrapy是基于Twisted来实现网络并发的,由于python GIL的存在,网络并发本质上是一个单线程的事件循环,在downloader处理请求的下载的时候,会针对每个下载任务绑定回调函数,然后将这个下载任务放入一个循环的队列当中,当请求下载完毕后再调用其绑定的回调函数取出下载结果
爬虫代理: 现在大部分的网站的服务器都会有反爬措施,一般来说网站服务器会根据客户端访问的频率来判断是否为普通用户或者是爬虫,如果单个IP的访问频率过高,则很有可能会被网站识别为爬虫而遭到封禁。对于这种网站可以考虑使用爬虫代理来进行爬取,代理的原理是使用一个动态的IP地址池来发送Request,避免同一源地址发送过多的Request导致源地址被目标网站封禁,同时代理会修改Request的http头部信息,让目标网站无法检测到是通过代理来发送Request的
user_agent: user-agent信息会被写入到http header当中,网站服务器通过检测user-agent可以识别访问的客户端是什么,如果不设置user-agent,爬虫程序将会使用默认的参数,可能会被目标服务器识别为爬虫程序,通常情况下需要修改user-agent为浏览器的信息,让对端认为是浏览器正常访问
Scrapy shell: scrapy用于调试的命令行,根据输入的url使用下载器下载好网页内容,同时进入交互式命令行,在scrapy shell中可以操作request、response、spider对象,例如可以操作response对象,调用相应的css、xpath来解析网页,检查css、xpath表达式是否正确