登录注册写文章

说清楚python的字符编码问题

攻城大师master

说清楚python的字符编码问题

编码格式

目前我们在用python开发项目中经常使用的编码格式是gbk和utf-8.但是python内部为了效率都是用的unicode的双字节编码格式.
为什么会有这个几个的编码格式?

ASCII码为了解决输入英文的问题
处理中文用GBK
处理世界各国语言用unicode
减少unicode字符长度和传输效率在unicode的基础上产生了utf-8

为什么在要文件头加上类似#encode这样的一行

用#encode的原因是告诉编译器我们这个文件是需要用什么解码器器来编解码.

如果你声明为#encode=utf8,你源文件也是utf-8,python解释器就能解释你的源码
如果你声明为#encode=utf8,你源文件用的gbk,python会直接抛出异常,因为有些gbk编码在用utf8解释器解释不了
如果你声明为#encode=gbk,你源文件也是gbk,源代码是可以解析的
如果你声明为#encode=gbk,你源文件用的是utf8,源代码会解析成乱码

为什么有的文件用u''这样来表示字符串

python中在字符串前面加上u即(u'')跟文件的物理编码没有关系.只是加载到内存中自动用unicode编码来表示.原理是python先将源文件中的源码用#encode=utf8 这个声明中的编码去解析,解释逻辑根据上面中的情况,如果解析成功了,会自动转乘unicode编码保存在内存中.

以r开头的字符，常用于正则表达式，对应着re模块。

为什么我的文件格式和文件头是对应的还是会出现乱码?

最终字符能不能正常显示还要看控制台用的是什么编码格式.正常应该用编码格式和解码格式还有控制台的显示的编码格式统一

python默认的编码格式sys.getdefaultencoding()可以获取,多数情况是ascii码.

最后

有什么问题加微博讨论van1988ch

最后编辑于：2018.03.20 23:08:50

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

【变量】python中的字符集和编码
字符集和编码简介在编程中常常可以见到各种字符集和编码，包括ASCII,MBCS,Unicode等字符集。确切的说...
兰山小亭阅读 12,809评论 0赞 13
python多版本控制
可以看我的博客 lmwen.top 或者订阅我的公众号简介有稍微接触python的人就会知道，python中...
ayuLiao阅读 8,435评论 1赞 5

[转]Python 2.x中常见字符编码和解码方面的错误及其解决办法
本文转自:http://www.crifan.com/crifan_released_all/books/ Pyt...
是Jonathan阅读 4,803评论 0赞 1
Python&Java面试总结
http://python.jobbole.com/85231/ 关于专业技能写完项目接着写写一名3年工作经验的J...
燕京博士阅读 12,226评论 1赞 118
熬过了七年异地恋，谈到结婚我们却分手了
有人说，如果你想证明两个人的爱情够不够坚定，来场异地恋吧。如果你们躲过了信任危机，习惯了想念对方只能靠手机，...
七点钟姑娘阅读 8,167评论 0赞 4

1赞2赞

赞赏

手机看全文