登录注册写文章

字符串的编码

字符串的编码

字符串的编码

计算机只能处理数字，文本转换为数字才能处理。计算机中的8bit就是一个字节，所以一个字节能表示最大的数字就是255.
计算机是美国人发明的，所以一个字节可以表示所有的字符，所以ASCII（一个字节）编码成为了美国人的标准编码。
中文里面的字符远大于255，所以ASCII编码处理中文是不够的，所以中国制定了GB2312编码，用两个字节表示一个汉字。同理，其他国家为了解决这个问题，就发展了很多标准，如果出现多种语言混合就会出现乱码。
Unicode将所有语言统一到一套标准编码里面。
但是，如果内容都是英文，Unicode编码比ASCII编码多一倍的存储空间。
所以出现了可变长的编码“UTF-8”，把英文变长为一个字节，中文变为3个字节，特别生僻的变为4-6个字节，如果传输大量英文，UTF-8对比Unicode的优势就很明显了

在进行代码处理的时候，固定长度的Unicode编码处理起来比可变长度的UTF-8更加方便简单，UTF-8的优势在于文本的存储和传送。
在Python3.x中，所有字符串已经转换为Unicode编码。
在Python2.x中，需要将字符串decode为Unicode后才能进行encode。

最后编辑于：2017.12.08 13:11:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

【变量】python中的字符集和编码
字符集和编码简介在编程中常常可以见到各种字符集和编码，包括ASCII,MBCS,Unicode等字符集。确切的说...
兰山小亭阅读 9,118评论 0赞 13
深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 2,591评论 1赞 20

你不知道，坐悍马的感觉真好
01 吃完晚饭后，我和室友两人走在大街上溜溜食，只有晚上天气才能凉快一些。一辆红色的宝马X7从我们身边驶过，透过车...
放弃与否8阅读 516评论 1赞 7
《百鸟朝凤》影评
写在前面:这是很久之前的电影啦，作为大学生的我们很少会去看如此文艺的电影，那天去看电影，多半是是上了年龄的爷爷奶奶...
左莜阅读 697评论 1赞 2
一个春天
叶小言阅读 165评论 0赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文