Python爬虫--Scrapy简介(一)

一、Scrapy简介

  Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
  Scrapy是快速的高级Web爬虫框架,用于爬取网站并从其页面中提取结构化数据。它可以用于从数据挖掘到监视和自动测试的广泛用途。
官网地址:https://scrapy.org/
文档地址:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html
教程:https://docs.scrapy.org/en/latest/intro/tutorial.html

Scrapy架构图:


Scrapy架构图

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)。

二、Scrapy安装

前置条件:Python 2/3

pip install scrapy

三、组件

1、Scrapy Engine(Scrapy引擎)

  Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。

2、Scheduler(调度)

  调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

  下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders

  Spiders是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个Spiders都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。
Spiders的整个抓取流程(周期)是这样的:
  首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
  在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
  在回调函数中,你解析网站的内容,使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
  最后,从Spiders返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

  项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被Spiders解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:
清洗HTML数据
验证解析到的数据(检查项目是否包含必要的字段)
检查是否是重复数据(如果重复就删除)
将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

  下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(Spider 中间件)

  Spider 中间件是介于Scrapy引擎和Spider 之间的钩子框架,主要工作是处理Spider 的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。Spider 中间件是一个挂接到Scrapy的Spider 处理机制的框架,你可以插入自定义的代码来处理发送给Spider 的请求和返回Spider 获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

  调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。


image.png

四、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:
1.引擎打开一个域名时Spider 处理这个域名,并让Spider获取第一个爬取的URL。
2.引擎从Spider 那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
3.引擎从调度那获取接下来进行爬取的页面。
4.调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
5.当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
6.引擎收到下载器的响应并将它通过Spider 中间件发送到Spider 进行处理。
7.Spider 处理响应并返回爬取到的项目,然后给引擎发送新的请求。
8.引擎将抓取到的项目项目管道,并向调度发送请求。
9.系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

五、制作 Scrapy 爬虫

具体步骤:
新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
明确目标 (编写items.py):明确你想要抓取的目标
制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
存储内容 (pipelines.py):设计管道存储爬取内容

1. 创建项目

在开始抓取之前,您将必须设置一个新的Scrapy项目。输入要存储代码并运行的目录:

scrapy startproject mySpider
项目

其中,mySpider 为项目名称,可以看到将会创建一个 mySpider 文件夹,目录结构大致如下:
scrapy.cfg :项目的配置文件
mySpider/ :项目的Python模块,将会从这里引用代码
mySpider/items.py :项目的目标文件
mySpider/pipelines.py :项目的管道文件
mySpider/settings.py :项目的设置文件
mySpider/spiders/ :存储爬虫代码目录

2. 明确目标(mySpider/items.py)

我们打算抓取:

http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=utf-8

网站里的所有标题、作者和回复。

1)打开mySpider目录下的items.py
2)Item 定义结构化数据字段,用来保存爬取到的数据,有点像Python中的dict,但是提供了一些额外的保护减少错误。
3)可以通过创建一个DetailItem 类, 并且定义类型为scrapy.Field的类属性来定义一个Item(可以理解成类似于ORM的映射关系)。

接下来,创建一个items.py类,和构建item模型(model)。

# -*- coding: utf-8 -*-

import scrapy
# 【注】类中的title、author、reply就像是字典中的“键”,爬到的数据就像似字典中的“值”。
class DetailItem(scrapy.Item):
    # 抓取内容:1.帖子标题;2.帖子作者;3.帖子回复数
    title = scrapy.Field()
    author = scrapy.Field()
    reply = scrapy.Field()

    def parse(self, response):
        pass

3. 制作爬虫 (spiders/BaiduSpider.py)

爬虫功能要分两步:

1). 爬数据

在当前目录下输入命令,将在mySpider/spiders目录下创建一个名为baidu的爬虫,并指定爬取域的范围:

scrapy genspider BaiduSpider "baidu.com"

生成文件:BaiduSpider.py

# -*- coding: utf-8 -*-
import scrapy

class BaiduspiderSpider(scrapy.Spider):
    name = 'BaiduSpider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass

打开 mySpider/spiders目录里的 myspider.py,默认增加了下列代码:

# -*- coding: utf-8 -*-
import scrapy
# 导入定义
from mySpider.mySpider import DetailItem

class BaiduspiderSpider(scrapy.Spider):
    name = 'BaiduSpider'
    allowed_domains = ['baidu.com']

    # 设置起始url(设置多个)
    start_urls = (
        "http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=utf-8",
    )
    def parse(self, response):
        '''
        是一个回调方法,起始url请求成功后,会回调这个方法
        :param response: 响应结果
        :return:
        '''
        print(response.status)
        for line in response.xpath('//li[@class=" j_thread_list clearfix"]'):
          # 初始化item对象保存爬取的信息
          item = DetailItem()
          # 这部分是爬取部分,使用xpath的方式选择信息,具体方法根据网页结构而定
          item['title'] = line.xpath(
              './/div[contains(@class,"threadlist_title pull_left j_th_tit ")]/a/text()').extract()
          item['author'] = line.xpath(
              './/div[contains(@class,"threadlist_author pull_right")]//span[contains(@class,"frs-author-name-wrap")]/a/text()').extract()
          item['reply'] = line.xpath('.//div[contains(@class,"col2_left j_threadlist_li_left")]/span/text()').extract()
          yield item

执行Shell:

scrapy shell http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=utf-8
2). 爬取数据
scrapy crawl BaiduSpider  -o items.json

常见问题

1. utf-8编码格式

解决:
在scrapy的settings.py文件中添加如下设置:

# 修改编码为utf-8
FEED_EXPORT_ENCODING = 'utf-8'
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容