Requests 爬取乱码问题

可以用.decode('utf-8','ignore')来解码,.encode()来编码

requests中的text()返回的是处理过的Unicode数据,而content()返回的是bytes型原始数据。所以获取网页数据时使用text(),获取照片时使用content()

简单粗暴的方法 requests.encoding()

网上一种终极解决方法(先mark)

if req.encoding == 'ISO-8859-1':
    encodings = requests.utils.get_encodings_from_content(req.text)
    if encodings:
        encoding = encodings[0]
    else:
        encoding = req.apparent_encoding
encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容