登录注册写文章

python的编解码(utf-8与gbk互转)

python的编解码(utf-8与gbk互转)

演示

python内部字符串统一是用unicode来存的，但是字符串在初始化的时候会因为操作系统环境而有差异

下面是在Linux环境下(UTF-8)初始化字符串

>>> d = '测试'
>>> d
'\xe6\xb5\x8b\xe8\xaf\x95'

转成unicode，可以看到变成了u开头的一堆字符，这个时候就可以转码了

>>> d = d.decode('utf-8')
>>> d
u'\u6d4b\u8bd5'

转成GBK编码

>>> d = d.encode('gbk')
>>> d
'\xb2\xe2\xca\xd4'

总结：

decode操作，把编码后的字符串转成未编码的unicode
encode操作，将unicode转成编码后的字符串

智能判断编码类型

>>> import chardet

>>> d = d.encode('utf-8')
>>> chardet.detect(d)
{'confidence': 0.7525, 'language': '', 'encoding': 'utf-8'}

最后编辑于：2017.12.09 01:14:33

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

[转]Python 2.x中常见字符编码和解码方面的错误及其解决办法
本文转自:http://www.crifan.com/crifan_released_all/books/ Pyt...
是Jonathan阅读 1,220评论 0赞 1
【变量】python中的字符集和编码
字符集和编码简介在编程中常常可以见到各种字符集和编码，包括ASCII,MBCS,Unicode等字符集。确切的说...
兰山小亭阅读 9,123评论 0赞 13

python多版本控制
可以看我的博客 lmwen.top 或者订阅我的公众号简介有稍微接触python的人就会知道，python中...
ayuLiao阅读 3,429评论 1赞 5
深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 2,592评论 1赞 20
不得不知道的 Python 字符串编码相关的知识
链接：www.cnblogs.com/Xjng/p/5093905.html 开发经常会遇到各种字符串编码的问题，...
loveroot阅读 1,746评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文