一、 requests_demo
#通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() #如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
html = getHTMLText(url)
二、综述
requests.request(method, url, **kwargs)
- method : HTTP请求方式7种,作为爬虫最常使用 GET
- **kwargs : 控制访问的参数,均为可选项:
- params: 字典或字节序列,作为参数增加到url中
- data: 字典、字节序列或文件对象,作为Requests的内容
- json: JSON格式的数据,作为Requests的内容
- headers: 字典,HTTP定制头
- cookies: 字典或CookieJar, Requests中的cookie
- auth: 元组,支持HTTP认证功能
- files: 字典类型,传输文件
- timeout: 设定超时时间,秒为单位
- proxies: 字典类型,设定访问代理服务器,可以增加登陆验证
- allow_redirects: 重定向开关,默认为True
- stream: 获取内容立即下载开关,默认为True
- verify: 认证SSL证书开关,默认为True
- cert: 本地SSL证书路径
三、用法介绍
具体见 requests 库
(一)HTTP请求方法
在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):
OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。
- OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。
- HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。
- GET:向指定的资源发出“显示”请求。
- POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。
- PUT:向指定的资源上传最新内容。
- DELETE:请求服务器删除所标识的资源。
- TRACE:显示服务器收到的请求,用于测试。
- CONNECT:通常用于SSL加密服务器的链接。
>>> r = requests.get('https://github.com/timeline.json')
>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")
(二)表单提交 POST
1、传递URL参数
在传递url参数时,Requests 允许你使用 params 关键字参数,以一个字典来提供这些参数。举例来说,对于网站 http://bin.org/get?key=val 如果你想传递 key1=value1 和 key2=value2到 http://bin.org/get,那么你可以使用以下代码:
>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)
通过打印输出该 URL,你能看到 URL 已被正确编码:
>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1
2、单选按钮、复选框和其他输入
无论表单多么复杂,仍然只有两件事需要关注的:字段名称和值。
如果你不确定一个输入字段值的数据格式,可以通过浏览器跟踪,看网站的URL链接等
如果遇到一个看着比较复杂的POST表单,并且想查看浏览器向服务器传递了哪些参数,可以用Chrome的审查元素或F12开发者工具查看
3、提交文件,图像,多部分编码的文件
url = 'http://pythonscraping.com/pages/processing2.php'
files = {'file': open('Python-logo', 'rb')}
r = requests.post(url, files=files)
print(r.text)
还可以显式地设置文件名,文件类型和请求头
建议使用二进制打开文件
(三)响应内容 GET
1、编码
我们能读取服务器响应的内容:
>>> import requests
>>> r = requests.get('http://www.baidu.com')
>>> r.encoding
'ISO-8859-1'
从HTTP header中猜测的响应内容编码方式
>>> r.apparant_encoding
'utf-8'
从内容中分析出来的响应内容编码方式,这个方法比较准确
>>>r.encoding = 'utf-8'
如果你改变了编码,每当你访问 r.text ,Request 都将会使用 r.encoding 的新值。
2、不同格式的响应内容
字符串响应内容
>>> r.text
HTTP响应内容的字符串形式,即url对应的页面内容
二进制响应内容
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...
HTTP响应内容的二进制形式
如果一张图片是以二进制存储的,就可以通过这样来还原图片
json响应内容
>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...
原始响应内容
(四)定制请求头 headers
如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了。
>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}
>>> r = requests.get(url, headers=headers)
注意: 所有的 header 值必须是 string、bytestring 或者 unicode。尽管传递 unicode header 也是允许的,但不建议这样做。
1、浏览器头
headers = {
'Host': 'blog.csdn.net',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'Referer': 'http://www.baidu.com',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
}
2、移动端头
headers = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2896.3 Mobile Safari/537.36'
}
headers里也可以传入 cookies
3、响应头,响应状态码
statu_code
(五)、 处理登录和cookie
如果某个响应中包含一些 cookie,你可以快速访问它们:
>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'
要想发送你的cookies到服务器,可以使用 cookies 参数:
>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')
>>> r = requests.get(url, cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'
对于一些复杂网站经常调整cookie或者你从一开始就完全不想要用cookie,可以用会话对象 session 函数
一班都会直接将 cookies 传入 headers 里
(六)重定向与请求历史
(七)超时
你可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应:
>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)
(八)错误与异常
- ConnectionError 遇到网络问题如:DNS 查询失败、拒绝连接等
HTTPError HTTP错误
URL.Required URL缺失异常
TooManyRedirects 请求超过了设定的最大重定向次数
ConnectTimeout 连接远程服务器超时异常
Timeout 请求URL超时,产生超时异常所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException
r.raise_for_status() 如果不是 200 产生异常requests.HTTPError