爬虫课堂（十五）|Request和Response（请求和响应）

Scrapy的Request和Response对象用于爬网网站，在介绍Scrapy框架原理之前先具体讲解下Request和Response对象。

通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该对象返回到发出请求的爬虫程序，如下图15-1所示。

图15-1

一、Request对象

一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response，它的构造器方法的参数列表如下：

Request(url[, callback, method='GET',headers,body,cookies,meta,encoding='utf-8',priority=0,dont_filter=False,errback])

下面依次介绍这些参数。

1、url（bytest或str类型，必选）

此请求的网址。

2、callback（Callable类型）

Request对象请求的页面下载完成后，由该参数指定的页面解析函数被调用。如果请求未传递该参数，默认调用Spider的parse()方法。请注意，如果在处理期间引发异常，则会调用errback（见下方）。

3、method（str类型）

此请求的HTTP方法，默认为’GET’。

4、meta（dict类型）

Request的元数据字典，用于给下一个函数传递信息。把需要传递的信息赋值给这个叫meta的变量，meta只接受字典类型的赋值，把待传递的信息改成“字典”的形式，即：meta={'key1':value1,'key2':value2}，如果想在下一个函数中取出value1,只需得到上一个函数的meta['key1']即可，因为meta是随着Request产生时传递的，下一个函数得到的Response对象中就会有meta，即response.meta，取value1则是value1=response.meta['key1']。

5、body（bytest或str类型）

HTTP的请求体。如果 body没有给出，则存储一个空字符串。

6、headers（dict类型）

这个请求的头。dict值可以是字符串（对于单值标头）或列表（对于多值标头）。如果 None作为值传递，则不会发送HTTP头。比如{'Cookie':None'}表示禁止发送Cookie

7、cookie（dict或list类型）

请求cookie。

8、encoding（str类型）

此请求的编码（默认为’utf-8’），此编码将用于对URL进行百分比编码，并将正文转换为str（如果给定unicode）。

9、priority（int类型）

此请求的优先级（默认为0）。调度器使用优先级来定义用于处理请求的顺序。具有较高优先级值的请求将较早执行。允许负值以指示相对低优先级。

10、dont_filter（boolean类型）

表示此请求不应由调度程序过滤。当您想要多次执行相同的请求时忽略重复过滤器时使用。小心使用它，或者你会进入爬行循环。默认为False。

11、errback（callable类型）

如果在处理请求时引发任何异常，将调用的函数。这包括失败的404 HTTP错误等页面。它接收一个Twisted Failure实例作为第一个参数。有关更多信息，请参阅使用errbacks在请求处理中捕获异常。

虽然参数很多，但除了url参数之外，其他都有默认值。一般情况下，我们只需要设置url和callback参数，代码如下：

scrapy.Request("https://www.baidu.com/",callback=self.parse_page2)

当然，在处理一些反爬问题时我们会设置其他的值，这个在后面章节详解。

二、Response对象

一个Response对象表示一个HTTP响应，Response只是一个基类，根据响应内容的不同有不同的子类：TextResponse、HtmlResponse、XmlResponse。

它的构造器方法的参数列表如下：

Response(url[, status=200, headers=None, body=b'', flags=None, request]）

1、url（str类型）

HTTP响应的URL。

2、status（int类型）

响应的HTTP状态，默认为200。

3、headers（dict类型）

HTTP响应的头部，dict值可以是字符串（对于单值标头）或列表（对于多值标头），可以调用get或getlist方法进行访问，如下：

response.headers.get('Content-Type')

response.headers.getlist('Set-Cookie')

4、body（bytes类型）

HTTP响应体，如TextResponse。

5、flags（list类型）

是一个包含属性初始值的 Response.flags列表。

6、request（Requestobject类型）

属性的初始值Response.request，这代表Request生成此响应。

三、Response响应子类

前面提到过，根据响应内容的不同有不同的子类，包括TextResponse、HtmlResponse、XmlResponse。下面以TextResponse为例详情讲解下它更多的参数。

1、TextResponse对象

class scrapy.http.TextResponse(url[, encoding[, ...]])

TextResponse除了标准对象之外，对象还支持以下属性：

text

响应体，如unicode。

同样response.body.decode(response.encoding)，但结果是在第一次调用后缓存，因此可以访问 response.text多次，无需额外的开销。

注意：unicode(response.body)不是一个正确的方法来将响应正文体转换为unicode，而是使用系统默认编码（通常为ascii）。

encoding

包含此响应的编码的字符串。

selector

Selector对象用于在Response中提取数据，具体更加详细的内容会在后面的章节讲解。

xpath（query）

使用XPath选择器在Response中提取数据，更多内容访问爬虫课程（八）｜豆瓣：十分钟学会使用XPath选择器提取需要的元素值

css(query)

使用CSS选择器在Response中提取数据，它的快捷方式为

TextResponse.selector.css(query):response.css('p')

具体更加详细的内容会在后面的章节讲解。

urljoin（url）

用于构造绝对url，当传入的url参数是一个相对地址，根据response.url计算出相应的绝对url。比如，response.url为https://www.jianshu.com/，url为p/5d19b49755f0，使用response.urljoin(url)的结果就是https://www.jianshu.com/p/5d19b49755f0。

简写为response.urljoin(url)，实际上是response.urljoin(response.url, url)

同样的，Response参数也有很多，但在爬虫中使用最多的主要是最后的三个：xpath（query）、css(query) 和urljoin（url）。

实际上，这三个参数在前面的实战章节中已经使用过，现在是做一个整体回顾和整理。

四、后话

现在有了这些基础，接下来要讲的就是Scrapy的框架结构及工作原理。

爬虫课堂（十五）|Request和Response（请求和响应）

推荐阅读更多精彩内容