:python做爬虫具有非常大的优势,原生的urllib
库提供了大量的API已方便爬虫开发,但是由于代码效率还有其他的第三方库,所以这里用的是 requests
模块,这次咱们初探一下。
1.requests初体验
首先安装,由于python已经安装了pip
,可以方便下载第三方模块,所以直接执行命令即可,如果没有安装参考这篇文章,执行命令
sudo pip install requests
2. 简单访问网页
1.这里咱们需要使用requests
库进行访问网页了,首先要引入
import requests
- 建立请求
requests
中的访问API很全面,我们可以以下面的方式建立请求
r = requests.get("http://www.baidu.com")
r = requests.put("http://ww.baidu.org/put")
r = requests.delete("http://ww.baidu.org/delete")
r = requests.head("http://ww.baidu.org/get")
r = requests.options("http://ww.baidu.org/get")
r = requests.post('https"//ww.baidu.com')
// python会返回一个对象,并且赋值给r
- 查看是否请求成功
由于我们需要知道是否请求网页成功,所以需要查看对方服务器返回的code字段,所以我们可以查看一下
r.status_code
// 200
此时如果r.status_code 为200则代表请求成功。
- 查看返回的文本信息
r.text
r.text
就是网页的内容了,当然咱们可以打印一下。
- 将网页内容转码,指定为咱们需要的编码
r.encoding = 'utf-8'
这时候改变了编码,每当你访问 r.text ,Request 都将会使用 r.encoding 的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话,你应该使用 r.content 来找到编码,然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。
- 打印一下
r.text
这时候打印出来的就是utf-8
编码的网页了,咱们就拿到这些网页进行抓取内容吧!