解决使用request库爬取内容出现乱码的问题

刚开始爬虫经常会被编码问题坑，今天看了python的requests库的官方文档和几种常见编码的关系,在这里做个简单的小结。

这里用百度做例子说明。

import requests

r = requests.get('http://www.baidu.com')
print(r.encoding)
print(r.text)

执行代码后输出如下：

我们可以看到返回response编码类型为 ISO-8859-1，文本输出中中文字符为乱码。
那么最简单的解决方案就是增加utf-8编码转化，如下：

import requests

r = requests.get('http://www.baidu.com')
r.encoding = 'utf-8'
print(r.encoding)
print(r.text)

再次执行代码，

我们发现问题已经顺利的解决了。

最后编辑于：2018.01.18 10:16:22

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

手机看全文