- 在写python的时候,由于python3默认使用utf8编码,所以,我们几乎可以忽略编码问题,但是,不代表不会出现问题,所以我不得不开始思考编码问题的本质。
- 编码
为什么要有编码?
- 由于计算机只能存储1,0这种二进制的数据,但是我们人类更喜欢的是abcd这种称作字符的形式,所以我们需要把0,1进行排列和abcd这种字符之间产生一个映射关系,这种0,1到abcd之间的映射就叫做编码。
但是我们到底需要多少个0,1来和我们生活中的abcd做映射呢,由于最初的计算机是从美国发源的,所以经过统计,美国人需要的类abcd的字符只要128个就可以了,而128个字符用7个位刚好可以表示,由于计算机存储的最小单位是byte,即8位,则可以把最高位设置为0,用剩下的7位表示字符。这种编码形式称为ASCII编码,全称是American Standard Code for Information Interchange,也叫美国信息互换标准代码。 - 虽然8位可以表示英文,但是如果需要表示其他国家的语言 ,就显得力不从心了,比如中文,阿拉伯文等。所以为了表示更多的人类字符,就产生了各种不同的编码形式,其本质都是把人类字符和计算机0,1序列之间做一个映射关系,不同的是表示一个人类字符的0,1序列的长度不同,一个ASCII码需要7位表示,而表示中文的GB2312则使用两个字节表示汉字,在这两个字节中,最高位都是1,如果是0,就认为是Ascii字符。GB2312大概能表示约7000个常用汉字。
中文常用编码
- 中文简体编码
- GB2312
- GBK
- GB18030
- 有时间先后关系,表示的字符数越来越多,且后面的兼容前面的,GB2312和GBK都是用两个字节表示,而GB18030则使用两个或四个字节表示。
- 万国码Unicode
- 如果每个国家都采用不同的编码形式,编码的时候忽略别的国家的编码,这样如果我用法国的电脑打开了中文邮件,这样我就会得到一堆乱码,因为编辑器会根据法国的编码格式来解码存储在计算机中的0,1序列,而法国的编码格式和中文的编码格式是不同的,解码的时候,一个中文可能需要两个字节来解码,而一个法文可能只需要一个字节,这样编辑器就会就会把一个中文解释为两个法文,从而导致乱码。
- 这时候就出现了一种世界通用的编码格式,这就是Unicode。
- Unicode给世界上所有字符都分配了一个唯一的数字编号,这个编号范围从0x000000到0x10FFFF,包括110多万。但大部分常用字符都 在0x0000到0xFFFF之间,即65536个数字之内。每个字符都有一个Unicode编号,这个编号一般写成16进制,在前面加U+。
- Unicode就做了这么 一件事,就是给所有字符分配了唯一数字编号。它并没有规定这个编号怎么对应到二进制表示,这是与上面介绍的其他编码不同的,其他编码都既规定了能表示哪些 字符,又规定了每个字符对应的二进制是什么,而Unicode本身只规定了每个字符的数字编号是多少。
- 那编号怎么对应到二进制表示呢?有多种方案,主要有UTF-32, UTF-16和UTF-8。
- UTF-32 四个字节表示一个二进制
- UTF-16 使用变长字节表示(某些使用2字节,某些使用4字节)
- UTF-8 使用变长字节表示,每个字符使用的字节个数与其Unicode编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多,使用的字节个数从1到4个不等。
UTF-8
我们讲到,utf8可以兼容所有的字符集,utf8是Unicode的一种实现,那它的编码规则又是什么呢?
- 对于单字节的符号(只需要一个字节表示的字符),字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的,兼容ASCII。
- 对于大于1字节的字符,第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
Unicode符号范围 | UTF-8编码方式
0000 0000-0000 007F | 0xxxxxxx 单字节
0000 0080-0000 07FF | 110xxxxx 10xxxxxx 双字节utf8(可填11位Unicode字符)
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 3字节utf8
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 4字节utf8
#这个符号范围就是Unicode的字符编号范围
所以,如果编码225这个数字,225的二进制是11100001
,则utf8编码为11000011 10100001
其中每个字节的前面部分110,10是utf8的编码规则,其余部分才是真正编码的数据。
实际上我们用任何可浏览的软件看到的文字或者字符,都是经过响应软件的解码操作后才显示在页面上的,如果我们在文本编辑器中看到了乱码,说明我们的编辑器在相应的内容解码的时候没有使用正确的编码,这时候只要修改该编辑器对该文本文件的解码格式一般就能解决乱码问题。
参考:
Python 编码错误的本质原因