登录注册写文章

爬取豆瓣250遇到的print输出字符GBK编码问题

爬取豆瓣250遇到的print输出字符GBK编码问题

【问题】

用Python抓取网页html

出现如下错误：

exception raised:'gbk' codec can't encode character u'\xa0' in position 73: illegal multibyte sequence

【问题原因】

对于此Unicode字符(html)，需要print出来的话，由于本地系统是Windows中的cmd，默认codepage是CP936，即GBK的编码，所以python解释器需要先将上述的Unicode字符html编码为GBK，然后再在cmd中显示出来。

【解决办法】

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

print html.encode(“GBK“,‘ignore’);

方案2：

或者，将其转换为GBK编码的超集GB18030（即，GBK是GB18030的子集）：

print html.encode(“GB18030“);

对应的得到的字符是GB18030的编码。

新问题出现：

改了代码之后，虽然没有报之前的那个错误，但是打印出来文字，英文文字没有出现乱码，但是中文出现乱码的情况

添加以下代码即可解决问题：

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

最后编辑于：2017.12.10 16:11:46

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

【变量】python中的字符集和编码
字符集和编码简介在编程中常常可以见到各种字符集和编码，包括ASCII,MBCS,Unicode等字符集。确切的说...
兰山小亭阅读 12,835评论 0赞 13
[转]Python 2.x中常见字符编码和解码方面的错误及其解决办法
本文转自:http://www.crifan.com/crifan_released_all/books/ Pyt...
是Jonathan阅读 4,806评论 0赞 1

深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 7,202评论 1赞 20
python多版本控制
可以看我的博客 lmwen.top 或者订阅我的公众号简介有稍微接触python的人就会知道，python中...
ayuLiao阅读 8,443评论 1赞 5
《堂吉诃德》读书笔记13-可怜了那一群羊
这次堂吉诃德又发疯，看到两群羊以为是两军对垒，硬要参与到这场战争中去！杨先生译得还是很有意思的！语言很生动。些人...
书里的小月阅读 3,547评论 0赞 0

赞1赞

赞赏

手机看全文