Requests 爬取乱码问题

可以用.decode('utf-8','ignore')来解码，.encode()来编码

requests中的text()返回的是处理过的Unicode数据，而content()返回的是bytes型原始数据。所以获取网页数据时使用text()，获取照片时使用content()

简单粗暴的方法 requests.encoding()

网上一种终极解决方法（先mark）

if req.encoding == 'ISO-8859-1':
    encodings = requests.utils.get_encodings_from_content(req.text)
    if encodings:
        encoding = encodings[0]
    else:
        encoding = req.apparent_encoding
encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python requests中的编码问题
你可以用.decode('gdk', errors='ignore')或者.decode('gdk', error...
g0阅读 12,644评论 0赞 2
[转载]Python HTTP库requests中文页面乱码解决方案！
Python中文乱码，是一个很大的坑，自己不知道在这里遇到多少问题了。还好通过自己不断的总结，现在遇到乱码的情况越...
dopami阅读 1,875评论 0赞 0
Python Unicode完全指南
引言在使用Python的时候，最令人崩溃，同时也是最常见的错误信息之一，就是处理字符串时出现的UnicodeEr...
耀凯考前突击大师阅读 4,017评论 0赞 3
Python3中使用Requests和BeaitfulSoup的编码问题
写在前面的话：学习Python有一段时间了，但是一直没有太多的实战，前期的学习主要是看买的电子书 Python学...
佐罗罗阅读 888评论 0赞 0
一吐为快
我与你已相伴走过十多个春秋，从一开始的不满到后来的将就妥协，一路走来，也倒是风平浪静。然而内心深处一直藏着丝丝的不...
遇見007阅读 194评论 3赞 0

赞1赞

赞赏

手机看全文