Python3的第三方Requests库

一、介绍

Requests 是用Python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3！

二、安装

pip安装

pip install requests

GitHub下载安装

$ git clone git://github.com/kennethreitz/requests.git
$ cd requests
$ python setup.py install

三、使用

Request库的几个主要方法

requests.request()：构造一个请求，支持以下各种方法
requests.get()：获取html的主要方法
requests.head()：获取html头部信息的主要方法
requests.post()：向html网页提交post请求的方法
requests.put()：向html网页提交put请求的方法
requests.patch()：向html提交局部修改的请求
requests.delete()：向html提交删除请求

requests.get()

# 具体参数
requests.get(url,params,**kwargs)

- url: 需要爬取的网站地址。
- params: 参数，使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中 
- **kwargs : 12个控制访问的参数

简单的使用

import requests
 
response = requests.get('https://www.baidu.com')    # 最基本的GET请求
print(response .status_code)    # 获取返回状态

12个**kwargs

- data：字典，字节序或文件对象，重点作为向服务器提供或提交资源是提交。作为request的内容，与params不同的是，data提交的数据并不放在url链接里， 而是放在url链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象。
- json：json格式的数据， json合适在相关的html，http相关的web开发中非常常见， 也是http最经常使用的数据格式， 他是作为内容部分可以向服务器提交。
- headers：字典是http的相关语，对应了向某个url访问时所发起的http的头i字段， 可以用这个字段来定义http的访问的http头，可以用来模拟任何我们想模拟的浏览器来对url发起访问。 
- cookies：字典或CookieJar，指的是从http中解析cookie
- auth：元组，用来支持http认证功能
- files：字典， 是用来向服务器传输文件时使用的字段。
- timeout: 用于设定超时时间， 单位为秒，当发起一个get请求时可以设置一个timeout时间， 如果在timeout时间内请求内容没有返回， 将产生一个timeout的异常。
- proxies：字典， 用来设置访问代理服务器。
- allow_redirects: 开关， 表示是否允许对url进行重定向， 默认为True。
- stream: 开关， 指是否对获取内容进行立即下载， 默认为True。
- verify：开关， 用于认证SSL证书， 默认为True。
- cert： 用于设置保存本地SSL证书路径

带参数的Get请求

# 复杂的get请求
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
url = "https://www.baidu.com/s"
params = {
    "ie":"utf-8",
    "kw":"校花"
}

r = requests.get(url=url,headers=headers,params=params)
# get请求的参数用params形参来接收，接收的时候字典就行
print(r.status_code)

获取cookies

import requests
 
r = requests.get('http://www.google.com.hk/')
print(r.cookies['NID'])
print(tuple(r.cookies))

对于某些需要登录才能访问的网站，获取到Cookies后，下次请求时我们可以携带Cookies进行网站的访问

携带cookie

import requests
 
url = 'http://httpbin.org/cookies'
cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
# 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@，冒号，分号等特殊符号都不能作为Cookie的内容。
r = requests.get(url, cookies=cookies)
print(r.json())

requests有一个Session对象可以用于保存会话。练习将使用Session对象来保存对话

上传文件

# 上传图片
import requests
 
url = 'http://127.0.0.1:5000/upload'
files = {'file': open('./test.jpg', 'rb')}
#files = {'file': ('test.jpg', open('/test.jpg', 'rb'))}     #显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)


# 把字符串当成文件进行上传
import requests
 
url = 'http://127.0.0.1:5000/upload'
files = {'file': ('test.txt', b'Hello Requests.')}     #必需显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)

使用代理

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://www.zhidaow.com", proxies=proxies)

response的对象属性

对象属性

- status_code：请求的返回状态，若为200则表示请求成功。
- text：响应内容的字符串形式，即返回的页面内容
- encoding：从http header 中猜测的相应内容编码方式
- apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）
- content：响应内容的二进制形式返回

使用

>>> import requests
>>> r=requests.get("http://www.baidu.com")
>>> r.status_code
200

>>>  r.encoding
'ISO-8859-1'

>>> r.apparent_encoding
'utf-8'

>>> r.content
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>ipt> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ\x9b´å¤\x9aäº§å\x93\x81</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a com/ class=cp-feedback>æ\x84\x8fè§\x81å\x8f\x8dé¦\x88</a>&nbsp;äº¬ICPè¯\x81030173å\x8f·&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'

>>> r.encoding='utf-8'

>>> r.text
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta chref=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css="h读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'

练习

微博登录

import requests

# 主页url
url = "https://weibo.cn/6370062528/info"
# 登录接口
login_url = "https://passport.weibo.cn/sso/login"

# 请求头
headers = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
    'Host': 'passport.weibo.cn',
    'Origin': 'https://passport.weibo.cn',
    'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='

}
# 请求体
data = {
    'username':'USERNAME',
    'password': 'PASSWORD',
    'savestate':'1',
    'r': 'https://weibo.cn/?luicode=20000174',
    'ec': '0',
    'pagerefer': 'https://weibo.cn/pub/?vt=',
    'entry': 'mweibo',
    'wentry':'',
    'loginfrom':'',
    'client_id':'',
    'code':'',
    'qq':'',
    'mainpageflag': '1',
    'hff':'',
    'hfp':''
}

# r = requests.post(url=login_url,data=data,headers=headers)
# 【注意】requests无法保存会话信息

# requests有一个Session对象可以用于保存会话。这样在我们登录完成后就可以再访问主页了。当然你也可以选择不使用Session来保存会话，而选择在登录完成后再访问主页的时候携带你的cookies。
s = requests.Session()
r = s.post(url=login_url,data=data,headers=headers)
print(r.text)


res = s.get(url=url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'})
print(res.status_code)

with open("weibo.html",'wb') as fp:
    fp.write(res.content)

Python3的第三方Requests库

Python3的第三方Requests库

一、介绍

二、安装

三、使用

Request库的几个主要方法

requests.get()

response的对象属性

练习

相关阅读更多精彩内容

友情链接更多精彩内容