各种字符集与编码格式区分

做程序猿这么多年，其实对各种编码格式虽有了解，但是让我说出各个的区别和联系，还真有点难度，所以，把这些编码格式梳理一遍，如下。

字符集

1. ASCII字符集

ASCII 码使用指定的7 位二进制数组合来表示128种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。

0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（响铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示，但会依不同的应用程序，而对文本显示有不同的影响。

32～126(共95个)是字符(32是空格），其中48～57为0到9十个阿拉伯数字。

65～90为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展（或“高”）ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

2. Unicode字符集

unicode是一个字符集，里面几乎包含了目前世界上已知的所有字符，且该字符集将二进制代码和字符形成一一映射。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

编码格式

1. UTF-8编码传输格式

Unicode字符集中对字符的编码是长度不确定的，其中有的字符是两个字符，有的是三个字符，这给计算机进行解码带来了困难。

所以我们想给每个字符对应的二进制码前加上一个标记，让计算机看到这个标记就知道它将要读取几个字节，那么这个标记该怎么加呢？

这就导致人们引入UTF-8，它的英文全称是8-bit Unicode Transformation Format，可以看出它是将原本的Unicode码进行了transformation，这种transformation 就是给每个Unicode码进行标记，使得让计算机看到某个标记就知道待会要读取几个字节的代码。

UTF-8编码规则

UTF-8的编码规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

2. ANSI编码格式

ANSI（American National Standards Institute），中文：美国国家标准学会。

为使计算机支持更多语言，通常使用 0x80~0xFF 范围的多个字节来表示 1 个字符。比如：汉字 '中' 在简体中文Windows操作系统中，使用 [0xD6,0xD0] 这两个字节存储。对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。

在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。

总之，需要将编码格式和字符集两个概念区分开来，再去理解会容易一些。

各种字符集与编码格式区分