scrapy的基本使用

scrapy框架

image.png

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

image.png

scrapy的项目的步骤

1.scrapy startproject 爬虫项目名称
2.(编写items.py）：明确你想要抓取的目标

items.py文件：自定义字段，确定要爬取的目标网站数据

import scrapy
class DoubanItem(scrapy.Item):

    # 标题
    title = scrapy.Field()
    # 是否可播放的状态
    playable = scrapy.Field()
    # 简介
    content = scrapy.Field()
    # 评分
    star = scrapy.Field()
    # 评论数量
    commentnum = scrapy.Field()
    # 主题
    inq = scrapy.Field()

spiders/douban.py 文件: 爬虫文件,在这里编写爬虫代码，解析数据，获取新的url
name：是项目的名字
allowed_domains：是允许爬取的域名，比如一些网站有相关链接，域名就和本网站不同，这些就会忽略。

settings.py文件: 设置文件，在这里设置User-Agent,激活管道文件等．．．
pipelines.py管道：这里进行数据的清洗和持久化

3.scrapy genspider 爬虫文件名称域名:制作爬虫开始爬取网页
4. 存储内容

（pipelines.py）：设计管道存储爬取内容

通过pip安装scrapy

pip3 install Scrapy

image.png

scrapy通用爬虫

scrapy genspider -t crawl 爬虫文件域名
它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制，从爬取的网页结果中获取链接并继续爬取的工作．

CrawlSpider使用rules属性来决定爬虫的爬取规则，并将匹配后的url请求提交给引擎,完成后续的爬取工作。

在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了某种特定操作，比如提取当前相应内容里的特定链接，是否对提取的链接跟进爬取，对提交的请求设置回调函数等。如果多个rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用。

Link Extractors 的目的很简单: 提取链接｡

每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。

Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡

link_extractor：是一个Link Extractor对象，用于定义需要提取的链接。

callback：从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数。

follow：是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow 默认设置为True ，否则默认为False。

process_links：指定spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。

process_request：指定处理函数，根据该Rule提取到的每个Request时，该函数将会被调用，可以对Request进行处理，该函数必须返回Request或者None

爬取规则(Crawling rules

第一步：根据要爬取的网页确定需要保存的字段
第二步：编写爬虫类 ,LinkExtractor实例对象

request请求和response响应

 url: 就是需要请求，并进行下一步处理的url

callback: 指定该请求返回的Response，由那个函数来处理。

method: 请求一般不需要指定，默认GET方法，可设置为"GET", "POST", "PUT"等，且保证字符串大写

headers: 请求时，包含的头文件。一般不需要。内容一般如下： # 自己写过爬虫的肯定知道 Host: [media.readthedocs.org](http://media.readthedocs.org/)User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0 Accept: text/css,*/*;q=0.1 Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: gzip, deflate Referer: [http://scrapy-chs.readthedocs.org/zh_CN/0.24/](http://scrapy-chs.readthedocs.org/zh_CN/0.24/) Cookie: _ga=GA1.2.1612165614.1415584110; Connection: keep-alive If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT Cache-Control: max-age=0
meta: 比较常用，在不同的请求之间传递数据使用的。字典dict型
 request_with_cookies = Request(
          url="http://www.example.com",
          cookies={'currency': 'USD', 'country': 'UY'},
          meta={'dont_merge_cookies': True}
      )
encoding: 使用默认的 'utf-8' 就行。
dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。
errback: 指定错误处理函数

response响应

status: 响应码
_set_body(body)： 响应体
_set_url(url)：响应url
self.request = request (request对象)
self.headers = Headers　(响应头)

如何使用shell

Scrapy Shell根据下载的页面会自动创建一些方便使用的对象，例如 Response 对象，以及 Selector 对象 (对HTML及XML内容)。

######运行shell:scrapy shell "http://hr.tencent.com/position.php?&start=0#a"
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"  "http://hr.tencent.com/position.php?&start=0#a"

Selectors选择器 Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制 Selector有四个基本的方法，最常用的还是xpath:

xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表
extract(): 序列化该节点为字符串并返回list
css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表，语法同 BeautifulSoup4
re(): 根据传入的正则表达式对数据进行提取，返回字符串list列表

数据库永久化保持

items.py文件：自定义字段，确定要爬取的目标网站数据
spiders/douban.py 文件: 爬虫文件,在这里编写爬虫代码，解析数据，获取新的url

init() : 初始化爬虫名字和start_urls列表

start_requests() 调用
make_requests_from url():生成Requests对象交给Scrapy下载并返回response
parse():

解析response，并返回Item或Requests（需指定回调函数）。
Item传给Item pipline持久化 ， 而Requests交由Scrapy下载，并由指定的回调函数处理（默认parse())，一直进行循环，直到处理完所有的数据为止。

settings.py文件: 设置文件，在这里设置User-Agent,激活管道文件等．．．
pipelines.py管道：这里进行数据的清洗和持久化

scrapy的基本使用

scrapy的基本使用

scrapy框架

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

scrapy的项目的步骤

1.scrapy startproject 爬虫项目名称

2.(编写items.py）：明确你想要抓取的目标

3.scrapy genspider 爬虫文件名称域名:制作爬虫开始爬取网页

4. 存储内容

通过pip安装scrapy

pip3 install Scrapy

scrapy通用爬虫

CrawlSpider使用rules属性来决定爬虫的爬取规则，并将匹配后的url请求提交给引擎,完成后续的爬取工作。

Link Extractors 的目的很简单: 提取链接｡

每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。

Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡

link_extractor：是一个Link Extractor对象，用于定义需要提取的链接。

callback：从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数。

follow：是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow 默认设置为True ，否则默认为False。

process_links：指定spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。

process_request：指定处理函数，根据该Rule提取到的每个Request时，该函数将会被调用，可以对Request进行处理，该函数必须返回Request或者None

爬取规则(Crawling rules

request请求和response响应

response响应

如何使用shell

数据库永久化保持

运行文件

scrapy crawl 项目名称

推荐阅读更多精彩内容

scrapy的基本使用

scrapy框架

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

scrapy的项目的步骤

1.scrapy startproject 爬虫项目名称

2.(编写items.py）：明确你想要抓取的目标

3.scrapy genspider 爬虫文件名称 域名:制作爬虫开始爬取网页

4. 存储内容

通过pip安装scrapy

pip3 install Scrapy

scrapy通用爬虫

CrawlSpider使用rules属性来决定爬虫的爬取规则，并将匹配后的url请求提交给引擎,完成后续的爬取工作。

Link Extractors 的目的很简单: 提取链接｡

每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。

Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡

link_extractor：是一个Link Extractor对象，用于定义需要提取的链接。

callback： 从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数。

follow：是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow 默认设置为True ，否则默认为False。

process_links：指定spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。

process_request：指定处理函数，根据该Rule提取到的每个Request时，该函数将会被调用，可以对Request进行处理，该函数必须返回Request或者None

爬取规则(Crawling rules

request请求和response响应

response响应

如何使用shell

数据库永久化保持

运行文件

scrapy crawl 项目名称

推荐阅读更多精彩内容

3.scrapy genspider 爬虫文件名称域名:制作爬虫开始爬取网页

callback：从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数。