字符串编码历史

参考https://www.cnblogs.com/wjhlinux/articles/11096142.html

https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896

背景：首先字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

而计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

通过上一节讲的二进制的知识，大家已经知道计算机只认识二进制，生活中的数字要想让计算机理解就必须转换成二进制。十进制到二进制的转换只能解决计算机理解数字的问题，那么文字要怎么让计算机理解呢？

于是我们就选择了一种曲线救国的方式，既然数字可以转换成十进制，我们只要想办法把文字转换成数字，这样文字不就可以表示成二进制了么？

image

可文字应该怎么转换成数字呢？那就是强制转换，简单粗暴。人们强行约定了一个表，把文字和数字对应上，这张表就相当于翻译，我们可以拿着一个数字来对比对应表找到相应的文字，反之亦然

ASCII 码

ASCII 是 American Standard Code for Information Interchange 的缩写

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是 65，小写字母 z的编码是 122。后128个称为扩展ASCII码。

这张表就是计算机显示各种文字、符号的基石呀

image

GB2312 & GBK

英文问题是解决了，我们中文如何显示呢？美国佬设计ASSCII码的时候应该是没考虑中国人有一天也能用上电脑，

所以根本没考虑中文的问题，上世界80年代（1980），电脑进入中国，把砖家们难倒了，最后我们设计出了GB2312编码表，长成下面的样子。一共存了6763个汉字

这里还需要兼容ASCII情况，不然容易存储变大，但是不能用2个字节表示一个英文字母。即遇到中文用2个字节，遇到英文直接用ASCII的编码。怎么做到的呢？中国人如此聪明，决定，如果2个字节连在一起，且每个字节的第1位(也就是相当于128的那个2进制位)如果是1，就代表这是个中文，这个首位是128的字节被称为高字节。也就是2个高字节连在一起，必然就是一个中文。你怎么如此笃定？因为0-127已经表示了英文的绝大部分字符，128-255是ASCII的扩展表，表示的都是极特殊的字符，一般没什么用。所以中国人就直接拿来用了。

自1980年发布gb2312之后，中文一直用着没啥问题，随着个人电脑进入千家万户，有人发现，自己的名字竟然打印不出来，因为起的太生僻了。于是1995年，砖家们又升级了gb2312, 加入更多字符，连什么藏语、维吾尔语、日语、韩语、蒙古语什么的统统都包含进去了，国家统一亚洲的野心从这些基础工作中就可见一斑哈。这个编码叫GBK，一直到现在，我们的windows电脑中文版本的编码就是GBK。

编码混战时代

中国人在搞自己编码的同时，世界上其它非英语国家也得用电脑呀，于是都搞出了自己的编码，你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。之前你从玩个日本游戏，往自己电脑上一装，就显示乱码了。

Unicode

这么乱极大了阻碍了不同国家的信息传递，于是联合国出面，发誓要解决这个混乱局面。

因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode 2-4字节已经收录136690个字符，并还在一直不断扩张中…

Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

Unicode有2个特点：

1.支持全球所有语言

2.可以跟各种语言的编码自由转换，也就是说，即使你gbk编码的文字，想转成unicode很容易。

image

UTF-8

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，由于计算机的内存比较大，并且字符串在内容中表示时也不会特别大，所以内容可以使用unicode来处理，但是存储和网络传输时一般数据都会非常多，那么增加1倍将是无法容忍的！！！

为了解决存储和网络传输的问题，出现了Unicode Transformation Format，学术名UTF，即：对unicode字符进行转换，以便于在存储和网络传输时可以节省空间!

UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个

UTF-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。

UTF-32：使用4个字节表示所有字符；

总结：UTF 是为unicode编码设计的一种在存储和传输时节省空间的编码方案。

如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000	0100000101000001
中	x	01001110 00101101	11100100 10111000 10101101

utf-8解码是一个字节的解码，如果第一个字节的第一位为0，则为单字节字符，如果第一字节，从第一位开始，连续有几个1，就表示该字符占用几个字节。

‘中’的utf-8编码，第一个字节有3个连续的1,则占用3个字符，如此系统即可正确解析（这里解码还是学的GB2312）

从上面的表格还可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下现在计算机系统通用的字符编码工作方式：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输数据的时候，就转换为UTF-8编码。

image

UTF-8 是一种不定长的Unicode 编码方式，一个字符可能占用1个字节，也有可能占用2,3,4 个字节。

内存存储字节流的时候，字符不定长会给算法带来麻烦。比如你没法确定第2000个字符在哪个字节开始。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

常用编码介绍一览表

编码	制定时间	作用	所占字节数
ASCII	1967年	表示英语及西欧语言	8bit1bytes
GB2312	1980年	国家简体中文字符集，兼容ASCII	2bytes
Unicode	1991年	国际标准组织统一标准字符集	2bytes
GBK	1995年	兼容GB2312，支持繁体，日韩文等	2bytes
UTF-8	1992年	不定长编码	1-3bytes

字符串编码历史

推荐阅读更多精彩内容