Scrapy框架模块功能:
- Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
- Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。
- Scheduler(调度器):负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。
- Downloader(下载器):负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。
- Item Pipeline(管道):负责将Spider(爬虫)传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。
- Downloader Middlewares(下载中间件):可以扩展下载器和引擎之间通信功能的中间件。
- Spider Middlewares(Spider中间件):可以扩展引擎和爬虫之间通信功能的中间件。
Scrapy文档
安装Scrapy框架
- 安装‘scrapy’:通过‘pip install scrapy’即可安装。
- 如果在windows下,还需要安装‘pypiwin32’,安装方式‘pip install pipiwin32’。
- 如果在ubuntu下,还需安装以下三方库:‘sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev’,然后再通过pip install scrapy安装。
创建项目和爬虫:
- 创建项目:‘scrapy startproject +爬虫的名字’。
- 创建爬虫:进入到项目所在路径,执行命令:scrapy genspider +爬虫的名字 +"爬虫的域名"。注意,爬虫的名字不能和项目名称一致。
项目目录结构:
- items.py:用来存放爬虫爬取下来数据的模型。
- middlewares.py:用来存放各种中间件的文件。
- pipelines.py:用来将items的模型存储到本地磁盘中。
- settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。
- scrapy.cfg:项目的配置文件。
- spiders包:以后所有的爬虫,都是存放到这个里面。
糗事百科案例Scrapy爬虫笔记
- response是一个‘scrapy.http.response.html.HtmlResponse’对象。可以执行‘xpath’和‘css’语法来提取数据。
- 提取出来的数据,是一个‘Selector’或者是一个‘SelectorList’对象。如果想要获取其中的字符串,那么应该执行‘getall’或者‘get’方法。
- getall方法:获取‘Selector’中的所有文本。返回的是一个列表。
- get方法:获取‘Selector’中得第一个文本。返回的是一个str类型。
- 如果数据解析回来,要传给pipeline处理。那么可以使用‘yield’来返回。或者是收集所有的item,最后统一使用return返回。
- item:建议在‘items.py’中定义好模型。以后就不要使用字典。
- pipeline:这个是专门用来保存数据的。其中有三个方法时会经常用到:
*‘open_spider(self, spider)’:当爬虫打开的时候执行。
*‘process_item(self, item, spider)’:当爬虫有item传过来的时候被调用。
*‘close_spider(self, spider)’:当爬虫关闭的时候执行。
要激活pipeline,应该在‘settings.py’中,设置‘ITEM_PIPELINES’。
JsonItemExporter和JsonLinesItemExporter:
保存json数据的时候,可以使用这两个类,让操作变得更简单。
- ‘JsonItemExporter’:每次把数据添加到内存中。最后统一写入到磁盘中。优点:存储的数据满足json规则的数据。缺点:当数据量比较大时,内存消耗严重。示例代码如下:
from scrapy.exporters import JsonItemExporter
class QsbkPipeline(object):
def __init__(self):
self.fp = open("joke.json", "wb")
self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
self.exporter.start_exporting()
def open_spider(self, spider):
print("爬虫开始了")
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
def close_spider(self, spider):
self.exporter.finish_exporting()
self.fp.close()
print("爬虫结束了")
- ‘JsonLinesItemExporter’:每次调用‘export_item’的时候就把这个item存储到硬盘中。优点:内存消耗低,数据安全性高。缺点:每一个字典是一行,整个文件不是一个满足json格式的文件。示例代码如下:
from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline(object):
def __init__(self):
self.fp = open("joke.json", "wb")
self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
def open_spider(self, spider):
print("爬虫开始了")
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
def close_spider(self, spider):
self.fp.close()
print("爬虫结束了")