字符编码和python使用encode,decode转换utf-8, gbk, gb2312

参考https://www.cnblogs.com/jxzheng/p/5186490.html

参考https://blog.csdn.net/bull521/article/details/89919175

python3 爬取网页报错：'gb2312' codec can't decode byte 0xb5 in position 154969: illegal multibyte sequence

方法一：

我一开始的想法是获取网页的head标签内的meta标签中的charset对应的值。不过并不是所有的网页都存在这个属性，因此这个想法行不通。

方法二：

response内有一个属性：response.apparent_encoding，可以通过获取该属性获取requests所认为的编码，然后主动对response.content进行解码，代码如下：

encoding = response.apparent_encoding

html = response.content.decode(encoding)

又是解码错误。在网上翻了翻别人的帖子，其中的一个解决方法是在decode函数后加上"ignore"来忽略那些无法解码的文字。

代码更改如下：

encoding = response.apparent_encoding

html = response.content.decode(encoding, "ignore")

好了，程序不会报错了。

虽然解决了一个问题，但是又出现了一个新的问题，那就是对于生僻字会发生乱码情况，比如“俤”这个字，在程序中变为了d。。。

究其原因应该是gb2312编码只是包含了常用的中文文字，所以在遇到生僻字会发生编码错误，那么哪个编码是gb2312的超集呢，在网上百度了下为gb18030，那么直接把上面的代码encoding改为"gb18030"。

gb18030:是新出的国家标准。这个标准由国家强制执行（也是为了保证中国信息业的地位，以及争取一定的主动权），所以所有在中国大陆销售的操作系统必须支持gb18030。现在的Gb18030不仅包含了简体和繁体汉字，支持中国少数名族文字，还包含了日韩等国的象形文字。优点：兼容性好，与以前的国标码都兼容。缺点：对英文字母需要2个字节的编码（引用自百度百科）

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

字符编码和python使用encode,decode转换utf-8, gbk, gb2312

友情链接更多精彩内容