(二)Requests

一、 requests_demo

#通用代码框架
import requests 
def getHTMLText(url):
      try:
          r = requests.get(url, timeout=30)
          r.raise_for_status() #如果状态不是200,引发HTTPError异常
          r.encoding = r.apparent_encoding
          return r.text
      except:
              return "产生异常"

if __name__ == "__main__":
      url = "http://www.baidu.com"
      html = getHTMLText(url)

二、综述

requests.request(method, url, **kwargs)

  • method : HTTP请求方式7种,作为爬虫最常使用 GET
  • **kwargs : 控制访问的参数,均为可选项:
  • params: 字典或字节序列,作为参数增加到url中
  • data: 字典、字节序列或文件对象,作为Requests的内容
  • json: JSON格式的数据,作为Requests的内容
  • headers: 字典,HTTP定制头
  • cookies: 字典或CookieJar, Requests中的cookie
  • auth: 元组,支持HTTP认证功能
  • files: 字典类型,传输文件
  • timeout: 设定超时时间,秒为单位
  • proxies: 字典类型,设定访问代理服务器,可以增加登陆验证
  • allow_redirects: 重定向开关,默认为True
  • stream: 获取内容立即下载开关,默认为True
  • verify: 认证SSL证书开关,默认为True
  • cert: 本地SSL证书路径

三、用法介绍

具体见 requests 库

(一)HTTP请求方法

在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):
OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

  • OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。
  • HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。
  • GET:向指定的资源发出“显示”请求。
  • POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。
  • PUT:向指定的资源上传最新内容。
  • DELETE:请求服务器删除所标识的资源。
  • TRACE:显示服务器收到的请求,用于测试。
  • CONNECT:通常用于SSL加密服务器的链接。
>>> r = requests.get('https://github.com/timeline.json')
>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

(二)表单提交 POST

1、传递URL参数

在传递url参数时,Requests 允许你使用 params 关键字参数,以一个字典来提供这些参数。举例来说,对于网站 http://bin.org/get?key=val 如果你想传递 key1=value1 和 key2=value2到 http://bin.org/get,那么你可以使用以下代码:

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)

通过打印输出该 URL,你能看到 URL 已被正确编码:

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1
2、单选按钮、复选框和其他输入

无论表单多么复杂,仍然只有两件事需要关注的:字段名称和值。
如果你不确定一个输入字段值的数据格式,可以通过浏览器跟踪,看网站的URL链接等
如果遇到一个看着比较复杂的POST表单,并且想查看浏览器向服务器传递了哪些参数,可以用Chrome的审查元素或F12开发者工具查看

3、提交文件,图像,多部分编码的文件
url = 'http://pythonscraping.com/pages/processing2.php'
files = {'file': open('Python-logo',  'rb')}
r = requests.post(url, files=files)
print(r.text)

还可以显式地设置文件名,文件类型和请求头
建议使用二进制打开文件

(三)响应内容 GET

1、编码

我们能读取服务器响应的内容:

>>> import requests
>>> r = requests.get('http://www.baidu.com')
>>> r.encoding
'ISO-8859-1'

从HTTP header中猜测的响应内容编码方式

>>> r.apparant_encoding
'utf-8'

从内容中分析出来的响应内容编码方式,这个方法比较准确

>>>r.encoding = 'utf-8'

如果你改变了编码,每当你访问 r.text ,Request 都将会使用 r.encoding 的新值。

2、不同格式的响应内容
字符串响应内容
>>> r.text

HTTP响应内容的字符串形式,即url对应的页面内容

二进制响应内容
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

HTTP响应内容的二进制形式
如果一张图片是以二进制存储的,就可以通过这样来还原图片

json响应内容
>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...
原始响应内容

(四)定制请求头 headers

如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了。

>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}
>>> r = requests.get(url, headers=headers)

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。尽管传递 unicode header 也是允许的,但不建议这样做。

1、浏览器头

headers = {
'Host': 'blog.csdn.net',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'Referer': 'http://www.baidu.com',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
}

2、移动端头

headers = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2896.3 Mobile Safari/537.36'
}
headers里也可以传入 cookies

3、响应头,响应状态码

statu_code

(五)、 处理登录和cookie

如果某个响应中包含一些 cookie,你可以快速访问它们:

>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'

要想发送你的cookies到服务器,可以使用 cookies 参数:

>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')
>>> r = requests.get(url, cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'

对于一些复杂网站经常调整cookie或者你从一开始就完全不想要用cookie,可以用会话对象 session 函数
一班都会直接将 cookies 传入 headers 里

(六)重定向与请求历史

(七)超时

你可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应:

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

(八)错误与异常

  • ConnectionError 遇到网络问题如:DNS 查询失败、拒绝连接等
  • HTTPError HTTP错误

  • URL.Required URL缺失异常

  • TooManyRedirects 请求超过了设定的最大重定向次数

  • ConnectTimeout 连接远程服务器超时异常
    Timeout 请求URL超时,产生超时异常

  • 所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException

r.raise_for_status() 如果不是 200 产生异常requests.HTTPError

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容