在计算机的内部,所有的数据和指令都是以二进制形式来表示的。为了表示常用的字母汉字等各种符号,于是用特定的二进制序列来表示特定的字符。当在使用字符的场景中遇到这这些特定的二进制序列时,就转义为指定的字符,这就是字符编码。
ASCII
ASCII(American Standard Code for Information Interchange,美国信息交换标准代码),是由美国国家标准学会(ANSI)制定的,于1967发表,是第一个正式的计算机编码。ASCII码采用一个字节进行编码,使用了除最高位外的7位(最高位为总是0),一共定义了128个字符。
- 00-1F以及7F:共33个字符为控制字符是无法显示的。
- 20-7E:为可显示的数字英文和一些常用的符合。
GB2312
ASCII只定义了128个字符,但对于含有进10万汉字的中文来说明显是不够的。为了在计算机上使用中文,中国国家标准总局1980年发布GB2312编码。
GB2312使用两个字节进行编码。第一个字节称为“高位字节”,第二个字节称为“低位字节”,“高位字节”范围为0xA1–0xF7,“低位字节”范围为0xA1–0xFE。同时为了兼容ASCII码GB2312保留了一个字节的ASCII码,所以在GB2312编码的文件中同时存在一个字节的ASCII码和两个字节的GB2312码。
GB2312的第一个和第二个字节都是从A1(10100001)开始的,可以看出GB2312的字节码都是1开始的,所以当遇到0开始的字节时就是ASCII码。
GB2312将定义的字符划分为94个区,字符所在的区称为区码,在区中的位置称为位码。字符的高字节编码减去A0就是区码,低字节减去A0就是位码。例如‘啊'字的字节码为B0A1,高字节B0减去A0得到16, 低字节A1减去A0得到1,‘啊’的去骂和位码就是16和1。
相应的也可以通过字符的区码和位码分别加上A0得到字符的字节码。
GB2312除了定义6万多个中文,还定义一些常见的繁体字、日文和希腊字母等一些符合。在兼容ASCII码的时也对ASCII码的字符定义了两个字节的表示,输入法中全角就是指输入时用两个字节的定义,半角则指用一个字节的ASCII码。
GBK:
GB2312码虽然定义6万多个字符,但对于一些生僻的字,如“啰”,“镕“”以及一些繁体字等并没有定义到。为了支持更多的字符,在GB2312的基础上扩展制定了GBK码。GBk完全兼容GB2312。
GBK码将第一个字节的定义范围扩展到81–FE,第二字节的一部分在40–7E中,另一部分在80–FE中,使用了GB2312未使用到的字节来进行扩展,也就是在GB2312中定义的字符在GBK中定义仍然相同。同时继续兼容一个字节的ASCII码。
GBK定义了2万多个符号。
GB18030:
虽然GBK定义了两万多个字符,但我们汉字可是接近十万的,在加上其他字符显然GBK码也不够用了,所以在2000年我国颁布了GB18030编码,并在2005进行了一次补充。
GB18030兼在容GBK码的同时对于新的字符使用四个字节进行编码。新的四个字节的字符不和GBK中已经定义了的字符冲突,GBK中定义了的字符仍然使用2个字节,ASCII吗仍然使用一个字节。
Unicode:
世界上有很多的语言,许多其他地区也定义了自己的编码方式,并且这些编码多数是互不兼容的,比如同是中文但‘好‘’字在GBK中定义为BAC3,而在台湾的BIG5编码中定义为A66E。
为了统一各个语言和符号的编码定义,诞生了Unicode码。Unicode为世界上绝大多数语言和符号制定了编码,目前已经收录超过13万个字符。发展由非营利机构统一码联盟负责。
Unicode只定义了各个字符的编码值,它并不是一个具体的实现。比如‘好’字Unicode定义编码为597D,但597D这个值在实际中是用三个字节还是四个字节表示,Unicode并未定义。
UTF-8:
UTF-8是对Unicode定义的编码的一种实现。UTF-8使用一至六个字节的可变长字符编。字符的字节数由最高位连续的1的个数来决定。例如‘好‘的UTF-8二进制码为11100101 10100101 10111101,最高位有三个连续的1所以该字符有三个字节。
UTF-8是如何表示Unicode定义的值的?
UTF-8中最高位连续的1的个数表示字节数。后面的字节都以10开头,其余的位用Unicode码的值填充。如果Unicode码的值不够填充则在第一个字节1的后面补充0。如下‘好’字的Unicode码与utf-8码:
utf-8使用三个字节来编码中文,所以对于中文utf-8比gbk要多50%的空间。
ISO-8859-1
又名latin1,使用一个字节来编码是对ASCII的补充。其编码范围是0x00-0xFF,其中0x00-0x7F之间和ASCII码完全一致。
因为ISO-8859-1是使用单个字节来编码的,所以但使用其存储其他方式编码的内容时虽然会乱码但是并不会改变保存内容的实际值。利用这个特性,MySQL数据库默认编码使用Latin1,在存储其他编码的字符时不会造成内容的丢失和改变。