1.我们为什么重点学习使用requests模块,而不是urllib
1.requests的底层实现就是urllib
2.requests在python2 和 python3 中通用,方法完全一样
3.requests 简单易用
4.requests 能够自动帮助我们解压(gizp压缩的等)网页内容
2.requests 的作用
发送网络请求,返回响应数据
3.requests 模块发送简单的请求,获取响应
需求:通过requests 向百度首页发送请求,获取百度首页的数据;
response = request.get(url)
response 的常用属性
- response.text
- response.stantus_code
- response.request.headers
- response.headers
3.1 response.text 和 response.content 的区别
response.text
- 类型:str
- 解码类型: 根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
- 如何修改编码方式:response.encoding=”gbk”
response.content
- 类型:bytes
- 解码类型: 没有指定
- 如何修改编码方式:response.content.deocde(“utf8”)
获取网页源码的通用方式:
response.content.decode()
response.content.decode("GBK")
response.text
4.发送带header的请求
带上 headers 的作用:
模拟浏览器,欺骗服务器,获取和浏览器一致的内容
header的形式:字典
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
用法
requests.get(url,headers=headers)
5.发送带参数的请求
例如:https://www.baidu.com/s?wd=python&c=b
参数的形式:字典
kw = {'wd':'橘子'}
用法
requests.get(url,params=kw)
注意点
在url地址中,很多参数是没有用的,比如百度搜索的url地址,其中参数只有一个字段有用,其他的都可以删除
对应的,在后续的爬虫中,越到很多参数的url地址,都可以尝试删除参数