登录注册写文章

python中把ISO-8859-1编码转化为UTF-8

_Haimei

python中把ISO-8859-1编码转化为UTF-8

当我们爬取一些页面的中文信息时，会出现如下情况：

11.png

爬取的中文编码格式不是UTF-8,无法正常显示，查看编码格式：

12.png

编码格式为ISO-8859-1（长见识啦~）
我们先定义一个这种编码的字符串：

14.png

先编码

15.png

后解码

16.png

完整流程

13.png

爬取内容变为中文

20.png

encode(编码)：按照某种规则将“文本”转换为“字节流”，unicode转化为str

decode(解码)：将“字节流”按照某种规则转换成“文本”，str转化为unicode

s.decode(' ')：运行会出错。因为python 3中的str类型对象有点像Python 2中的unicode，而decode是将str转为unicode编码，所以str仅有一个encode方法，调用这个方法后将产生一个编码后的byte类型的字符。
AttributeError: 'str' object has no attribute 'decode'
AttributeError: 'bytes' object has no attribute 'encode'

最后编辑于：2018.05.30 16:52:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

5赞6赞

赞赏

手机看全文

python中把ISO-8859-1编码转化为UTF-8

相关阅读更多精彩内容

友情链接更多精彩内容