7个主要方法
方法 |
说明 |
requests.request() |
构造一个请求,支撑以下各方法的基础方法 |
requests.get() |
获取HTML网页的主要方法,对应于HTTP的GET |
requests.head() |
获取HTML网页头信息的方法,对应于HTTP的HEAD |
requests.post() |
向HTML网页提交POST请求的方法,对应于HTTP的POST |
requests.put() |
向HTML网页提交PUT请求的方法,对应于HTTP的PUT |
requests.patch() |
向HTML网页提交局部修改请求,对应于HTTP的PATCH |
requests.delete() |
向HTML页面提交删除请求,对应于HTTP的DELETE |
Response对象的属性
属性 |
说明 |
r.status_code |
HTTP请求的返回状态,200表示连接成功,404表示失败 |
r.text |
HTTP响应内容的字符串形式,即,url对应的页面内容 |
r.encoding |
从HTTP header中猜测的响应内容编码方式 |
r.apparent_encoding |
从内容中分析出的响应内容编码方式(备选编码方式) |
r.content |
HTTP响应内容的二进制形式 |
r.encoding:如果header中不存在charset,则认为编码为ISO‐8859‐1
r.text根据r.encoding显示网页内容
r.apparent_encoding:根据网页内容分析出的编码方式
可以看作是r.encoding的备选
Requests库和Response的异常
异常 |
说明 |
requests.ConnectionError |
网络连接错误异常,如DNS查询失败、拒绝连接等 |
requests.HTTPError |
HTTP错误异常 |
requests.URLRequired |
URL缺失异常 |
requests.TooManyRedirects |
超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout |
连接远程服务器超时异常 |
requests.Timeout |
请求URL超时,产生超时异常 |
r.raise_for_status() |
如果不是200,产生异常requests.HTTPError |
r.raise_for_status()在方法内部判断r.status_code是否等于200,不需要
增加额外的if语句,该语句便于利用try‐except进行异常处理
通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果状态码不是200,则引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return '产生异常'
if __name__ == '__main__':
url = ''
...
HTTP协议对资源的操作
方法 |
说明 |
GET |
请求获取URL位置的资源 |
HEAD |
请求获取URL位置资源的响应消息报告,即获得该资源的头部信息 |
POST |
请求向URL位置的资源后附加新的数据 |
PUT |
请求向URL位置存储一个资源,覆盖原URL位置的资源 |
PATCH |
请求局部更新URL位置的资源,即改变该处资源的部分内容 |
DELETE |
请求删除URL位置存储的资源 |
PATCH和 PUT区别
假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段
需求:用户修改了UserName,其他不变
• 采用PATCH,仅向URL提交UserName的局部更新请求
• 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除
PATCH的最主要好处:节省网络带宽
HTTP协议中的方法与Reqests库方法一一对应
7个方法详解
requests.request(method, url, **kwargs)
参数 |
解释 |
method |
请求方式,对应get/put/post等7种 |
url |
拟获取页面的url链接 |
**kwargs |
控制访问的参数,共13个 |
参数详解
**kwargs |
解释 |
params |
字典或字节序列,作为参数增加到url中 |
data |
字典、字节序列或文件对象,作为Request的内容 |
json |
JSON格式的数据,作为Request的内容 |
headers |
字典,HTTP定制头 |
cookies |
字典或CookieJar,Request中的cookie |
auth |
元组,支持HTTP认证功能 |
files |
字典类型,传输文件 |
timeout |
设定超时时间,秒为单位 |
proxies |
字典类型,设定访问代理服务器,可以增加登录认证 |
allow_redirects |
True/False,默认为True,重定向开关 |
stream |
True/False,默认为True,获取内容立即下载开关 |
verify |
True/False,默认为True,认证SSL证书开关 |
cert |
本地SSL证书路径 |
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('GET', 'http://python123.io/ws', params=kv)
print(r.url) # http://python123.io/ws?key1=value1&key2=value2
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', 'http://python123.io/ws', data=kv)
body = '主体内容'
r = requests.request('POST', 'http://python123.io/ws', data=body)
kv = {'key1': 'value1'}
r = requests.request('POST', 'http://python123.io/ws', json=kv)
hd = {'user‐agent': 'Chrome/10'}
r = requests.request('POST', 'http://python123.io/ws', headers=hd)
# 向某个连接提交文件
fs = {'file': open('data.xls', 'rb')}
r = requests.request('POST', 'http://python123.io/ws', files=fs)
pxs = { 'http': 'http://user:pass@10.10.10.1:1234', 'https': 'https://10.10.10.1:4321' }
r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)
requests.get(url, params=None, **kwargs)
参数 |
解释 |
url |
拟获取页面的url链接 |
params |
url中的额外参数,字典或字节流格式,可选 |
**kwargs |
12个控制访问的参数 |
import requests
# 发送get请求
r = requests.get('http://www/baidu.com/s', params={'kw': 'python'})
r = requests.get('http://www.baidu.com/s', params=dict(wd='python'))
# 下载图片
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1531368811695&di=6c119a485d39d482d54fcf31856b6de1&imgtype=0&src=http%3A%2F%2Fimg.shouyoutan.com%2FUploads-s%2Fnews%2F2016-04-11%2F570b63dbc401b.jpg'
r = requests.get(url)
with open('demo.jpg', 'wb') as f:
f.write(r.content)
# 下载大文件
url = 'http://sqdownb.onlinedown.net/down/FastStoneCapture44264.zip'
filename = url.split('/')[-1]
r = requests.get(url, stream=True)
with open(filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=512):
if chunk:
f.write(chunk)
# requests请求响应信息
import requests
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe'
'bKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
resp = requests.get('http://www.baidu.com/', headers=headers)
### 示例
# 获取响应中的头信息
print(resp.headers)
# 获取请求的头信息
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe'
'bKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
resp = requests.get('http://www.baidu.com/', headers=headers)
# 获取响应中的头信息
print(resp.headers)
# 获取请求的头信息
print(resp.request.headers)
print(resp.text) # 字符串格式
print(resp.content) # 二进制格式
print(resp.raw) # 原始响应内容
print(resp.json) # json格式
# 重定向
r = requests.get('http://www.baidu.com/', allow_redirects=False) # 获得重定向之前的内容
r = requests.get('http://10.31.161.59:8888/admin', allow_redirect=True) # 获得重定向之后的内容
# 发送cookie
url = 'http://10.31.161.59:8888'
cookies = dict(
test = 'testing'
)
resp = requests.get(url, cookies=cookies)
requests.head(url, **kwargs)
参数 |
解释 |
url |
拟获取页面的url链接 |
**kwargs |
12个控制访问的参数 |
requests.post(url, data=None, json=None, **kwargs)
参数 |
解释 |
url |
拟更新页面的url链接 |
data |
字典、字节序列或文件,Request的内容 |
json |
JSON格式的数据,Request的内容 |
**kwargs |
12个控制访问的参数 |
# 发送post请求
url = 'http://10.31.161.59:8888/user/register/'
r = requests.post(url, data=dict(username='python', password='123456'))
print(r.content
# 文件上传
url = ''
files = {
'file': open('somefile.txt', 'rb')
}
r = requests.post(url, files=files)
# 发送json数据
import json
url = ''
user = {
'username': 'gavin'
}
requests.post(url, data=json.dumps(user))
requests.post(url, json=user)
# 使用代理
proxies = {
'http':'http://101.236.35.98:8866',
'https':'https://180.121.132.184:808'
}
r = requests.get('http://www.baidu.com', proxies=proxies)
print(r.headers)
requests.put(url, data=None, **kwargs) 同Patch
参数 |
解释 |
url |
拟更新页面的url链接 |
data |
字典、字节序列或文件,Request的内容 |
**kwargs |
12个控制访问的参数 |
requests.delete(url, **kwargs)
参数 |
解释 |
url |
拟删除页面的url链接 |
**kwargs |
12个控制访问的参数 |
requests请求响应信息
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)'
' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
resp = requests.get("http://10.31.161.59:8888",headers=headers)
# 获得响应中的头信息
print(resp.headers)
# 获得请求的头信息
print(resp.request.headers)
# 获得响应的内容
print(resp.text) # 字符串格式
print(resp.content) # bytes格式
print(resp.raw) # 原始响应内容
print(resp.json()) # json格式
requests超时时间
import requests
url = 'http://www.baidu.com'
try:
r = requests.get(url=url,timeout=1)
except Exception as e:
print("{url}请求超时.".format(url=url))
print(type(r.request))
页面下载及解决编码问题
decode encode
str(byte类型) ---------> str(Unicode) ---------> str(byte类型)
import requests
import codecs
# pip install requests
def fetch(url):
"""
获取url对应的页面的内容.
参数:
-url- : 网页的地址
返回值:
如果页面成功获取,以r.content二进制内容返回,有2个方式保存为文件,直接以wb方式写入,或者先将二进制数据decode成str,然后指定编码格式 encoding='GBK',然后写入文件。
如果页面以r.text返回,需要和通用代码框架中一样设定 r.encoding = 'gbk'或 r.encoding = r.apparent_encoding,然后直接写入文件即可。
"""
r= requests.get(url)
if r.status_code is 200:
return r.content
return None
def main():
result = fetch("https://www.poxiao.com/")
if result is not None:
with open("poxiao.html","wb") as f:
f.write(result)
return None
# if result is not None:
# with codecs.open("poxiao.html","w",encoding='GBK') as f:
# f.write(result.decode('GBK'))
# return None
if __name__ == '__main__':
main()
保存数据到数据库
官方版本
import pymysql
import pymysql.cursors
from bs4 import BeautifulSoup
with open('poxiao.html','rb') as f:
# pip install lxml
poxiao = BeautifulSoup(f,'lxml')
# div content clear
# 找到div
content_div = poxiao.find(name='div',class_='content clear')
# 从div中找所有li
li_list = content_div.findAll(name='li')
# Connect to the database
connection = pymysql.connect(host='localhost',
user= 'spider',
password='123456',
db='spider',
charset='utf8mb4',
cursorclass=pymysql.cursors.DictCursor)
# 获得每个li中的文本和超链接
try:
for li in li_list:
print(li.a.get("href"))
print(li.get_text())
href = li.a.get("href")
title = li.get_text()
with connection.cursor() as cursor:
# Create a new record
sql = "INSERT INTO `movie` (`title`, `link`) VALUES (%s, %s)"
cursor.execute(sql, (title, href))
# connection is not autocommit by default. So you must commit to save
# your changes.
connection.commit()
with connection.cursor() as cursor:
# Read a single record
sql = "SELECT `title`, `link` FROM `movie` WHERE `movie_id`=%s"
cursor.execute(sql, (1,))
result = cursor.fetchone()
print(result)
finally:
connection.close()
简写版本
import pymysql
from bs4 import BeautifulSoup
with open('poxiao.html', 'rb') as f:
poxiao = BeautifulSoup(f, 'lxml')
content_div = poxiao.find(name='div', class_='content clear')
li_list = content_div.findAll(name='li')
db = pymysql.connect('127.0.0.1', 'root', '123456', 'spider')
db.set_charset('utf8')
cursor = db.cursor()
try:
for li in li_list:
href = 'https://www.poxiao.com' + li.a.get('href')
title = li.get_text()
# sql = 'insert into movie values(null, "%s", "%s")' % (title, href)
sql = "INSERT INTO `movie` (`title`, `link`) VALUES (%s, %s)"
cursor.execute(sql, (title, href))
db.commit()
except:
db.rollback()
db.close()
requests会话
import requests
s = requests.Session()
# 地址级别的参数可以跨请求保持
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)
# 函数级别的参数不会被跨请求保持
resp = s.get('http://httpbin.org/cookies', cookies={'name':'xiaoming'})
print(resp.text)
resp = s.get('http://httpbin.org/cookies')
print(resp.text)
# 会话可以用来提供默认数据
session = requests.Session()
session.auth = ('dai','123456')
# 会话也可用来为请求方法提供缺省数据。这是通过为会话对象的属性提供数据来实现的:
s = requests.Session()
s.auth = ('user', 'pass')
s.headers.update({'x-test': 'true'})
# both 'x-test' and 'x-test2' are sent
r= s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print(r.request.headers)
# 在 with 前后文管理器中使用session,确保session自动关闭
with requests.Session as session:
session.get('http://www.baidu.com')
预请求
from requests import Request, Session
session = Session()
url = 'http://www.baidu.com'
# 构建一个请求对象
req = Request('GET', url, headers=None)
# 获得带有状态的预请求对象
prepped = session.prepare_request(req)
print(type(prepped))
# <class 'requests.models.PreparedRequest'>
# 发送请求
with session.send(prepped, timeout=0.5) as response:
print(response.status_code)
requests下载图片
import requests
url = "http://pic171.nipic.com/file/20180705/5053868_230805401034_2.jpg"
r = requests.get(url)
with open('demo.jpg','wb') as f:
f.write(r.content)
requests下载大文件
url = 'http://sqdownb.onlinedown.net/down/FastStoneCapture44264.zip'
import requests
filename = url.split('/')[-1]
r = requests.get(url,stream=True)
with open(filename,'wb') as f:
for chunk in r.iter_content(chunk_size=512):
if chunk:
f.write(chunk)
requests发送cookie
import requests
url = 'http://10.31.161.59:8888/'
headers = {
'User-Agent':'afasdfasfasdf',
}
cookies = dict(
sessionid = 'swkbut2xrt2c3rhhwubamp80oa2p7tzw',
csrftoken = 'e6JLs6n2u4gPDrd8l3XVkUhhvCldxUvXhJ0SHJGiV1oUbnTwv12CR9GTvzX6l9EC'
)
resp = requests.get(url,headers=headers,cookies=cookies)
print(resp.text)
requests文件上传
import requests
url = ''
files = {
'file':open('somefile.txt','rb')
}
r = requests.post(url,files=files)