1.Request库的get()方法
requests.get(url,params=None,**kwargs)
url :拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数
2.request库中的2个重要对象
(1)response对象包含爬虫返回的内容
r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1
r.apparent_encoding:根据网页内容分析出的编码方式
(2)request
3.爬取网页的通用代码框架
¥¥¥:处理在爬取网页过程中所出现异常情况的通用代码框架,核心代码r.raise_for_status()-如果状态不是200,将会引发异常,所以except就能够捕获这个异常的情况。
4.HTTP协议
(1)HTTP
5.request库主要方法解析
(1)requests.request(method,url,**kwargs)方法
#请求方法(methon):
#**kwargs:控制访问的参数,均为可选项
【1】params:字典或字节序列,作为参数增加到url中(对url进行修改)
kv字典中存的键值对放入url连接中,可以一起访问。
【2】data:字典、字节序列或文件对象,作为Request的内容
data的方法是将键值对作为数据放在URL链接对应的位置(域)中存储,而不放在url连接中
【3】Json:json格式的数据,作为Requests的内容
【4】headers:字典,HTTP定制头
可以模拟浏览器向服务器发起访问。
【5】cookies: 字典或CookieJar,Request中的cookie
auth:元组,支持HTTP认证功能
files:字典类型,传输文件(向某个链接提交某个文件)
timeout:设定超时时间,秒为单位
【6】
proxies:字典类型,设定访问代理服务器,可以增加登录认证(爬取时使用的IP地址就是代理服务器的IP地址,使用百度时可以隐藏自己的IP地址)
【7】allow_redirects:True/False,默认为True,重定向开关。
stream:True/False,默认为True,获取内容立即下载开学
verify:True/False,默认为True,认证SSL证书开关
cert:本地SSL证书路径