字符编码和开发

信息传递

蚂蚁使用触角获取信息素来得到食物在哪里的信息，士兵使用在烽火台上释放狼烟来告诉后方发生了军情信息，信息的载体各种各样，由于载体的特性限制，信息必须从一种形式转换为另外一种形式才能使用载体，也就是所谓“编码”过程，而“解码”就是“编码”的逆向过程。

字符编码集

文字的出现标志着人类进入了文明时代，而模拟时代到数字时代的进化，所有的信息都需要以数字形式才能进行存储和传播。美国人发明了计算机，当然他们会先解决自己的字符处理问题，就有了ASCII, 如下：

ascii-chart.png

这是一张二维表，对于英语的二十六个拉丁字母和阿拉伯数字以及一些符号，可以通过查表快捷的转换为一个字节长度的二进制序列，这就是一个字符编码集，用于描述抽象字符集和相应的编码规则，这里说下几个概念：

Abstract Character, 抽象字符：抽象字符是指一个抽象的文字，而不是具体的字形，在计算机里字符和字形是不同模块来实现完成的。
Code Point, 码点: 就是一个字符对应的唯一编号，ASCII中的字符‘A’对应的码点就是65。
Code Unit: 编码使用的最短字节单元，ASCII为一个字节。
Code Space, 码点空间:字符编码集中所有的码点集合，ASCII为0x00-0xFF。

虽然ASCII解决了美国人的文字问题，其他国家和地区怎么办呢？为了软件实现本地化，每个国家和地区收集自己的字符集，制定了各自的字符编码集，比如GB2312(简体中文)， Big5(繁体中文)， Shift_JIS(日文)，Euc-kr(韩文), 这样软件就可以在这些国家进行本地化显示，但是字符编码集的多样性带来了不少问题：

没有哪种字符编码集可以覆盖全球所有国家和地区
各种字符集之间有冲突，同一个编码在不同的字符编码集中代表不同的字符，或者，不同编码在不同字符编码集中代表相同字符。
各种字符集之间转换会出现乱码问题

这时候国际化机构开始出手了，国际电工委员会和国际化标准组织从1985年开始制定并扩展了ISO/IEC 8859这个标准，总共定义了15个8位元的字符编码集，后来进一步制定了ISO/IEC 10646标准，与此同时，由苹果，微软，IBM等商业巨头组成的统一码联盟也在积极制定Unicode标准，由于世界只需要一个大一统的标准，在两个组织知道对方的存在后，携手同行，相互兼容，实际上却是两个标准。

统一码联盟在1991年首次发布了统一码标准, 该标准由核心规范，Unicode标准，代码图，Unicode标准附件以及Unicode字符数据库组成，作为全球统一标准，加上计算机企业巨头的推进，Unicode成为计算机工业中字符的主流标准。最新版本为12.1.0

至于我们关心的简体中文，我国根据Unicode标准发布自己的简体中文字符集，1993年发布了GB13000.1-93, 等同于Unicode1.1, 1995年发布了GBK，把涵盖的汉字和图形符号增加到21003个，2000年推出GB18030-2000来替换掉了GBK，因为GBK只是全国信息技术标准化委员会发布的一个技术规范，而不是标准。

Unicode字符集和Unicode字符编码

统一码标准覆盖很多规范，我们这里仅针对Unicode字符集和编码实现方式进行讲解。

Unicode字符集旨在收集全球所有国家和地区的字符，并每一个字符分配一个唯一ID，这个ID也就是我们前面提到的码点。为了让高频度使用的字符更加快速能够编码和解码，Unicode将Code Space划分为17个平面，编号0-16，把高频字符都放在0平面，成为基本多语言平面，其他称为增补平面。

unicoed_multi_plan.png

字符编码是把码点转换为使用的二进制序列，实现方式可以由很多，UTF-8, UTF-16和UTF-32是Unicode标准定义的几种编码实现方式，其中UTF的全称是Unicode Transformation Format, 统一码转换格式。

UTF-8

使用8位长的码元
可变长度编码，需要是1～4个码元来表示
兼容ASCII，成为广泛支持的主流编码方式
通过首字节来确认编码使用的字节长度
- 首字节以0开头，表示单字节编码
- 首字节以110开头，表示双字节编码
- 首字节以1110开头，表示三字节编码
- 首字节以11110开头，表示四字节编码
无字节序

UTF-16

使用16位长的码元
可变长度，需要1～2个码元来来表示
最早使用的Unicode编码方式
源于UCS-2, 因为UCS-2直接将CodePoint映射为字符编码，导致UCS-2只能覆盖BMP, UTF-16通过代理机制解决了UCS-2这个问题
有字节序

UTF-32

固定编码，使用四个字节编码
Unicode字符和Code Unit之间是一一映射的关系
有字节序
固定长度，处理方便
UCS-4编码机制的子集
有字节序

iconv & libiconv

虽然有了Unicode这个大一统的标准，但是已经存在的编码方式早已蔓延在各个领域，所以字符编码的转换也是常见的工作，iconv这个命令可以完成编码转换的事情。

iconv [OPTION...] [-f encoding] [-t encoding] [inputfile ...]

默认是输出到标准输出终端的，可以使用'>'重定向保存输出到文件中。iconv几乎覆盖了所有的字符编码集的支持。

如果需要编程开发，则使用libiconv库的api来完成

#include <iconv.h>
iconv_t iconv_open (const char* tocode, const char* fromcode);
size_t iconv (iconv_t cd,
                     char **restrict inbuf, size_t *restrict inbytesleft,
                     char **restrict outbuf, size_t *restrict outbytesleft);
int iconv_close (iconv_t cd);

中英文对照表

抽象字符， Abstract character
码点，Code Point
码元，Code Unit
码点空间，Code Space
美国标准编码信息交换，ASCII, American Standard Code Information Interchange
国际电工委员会，IEC, International Electrotechnical Commission
国际标准化组织，ISO，International Organization for Standardization
统一码联盟，Unicode Consortium
统一码标准，The Unicode Standard
基本多语言平面，BMP, Basic Multillingual Plane
增补多语言平面，SMP, Supplementary Multillingual Plane
增补象形平面， Supplementary Ideographic Plane

国际化和本地化-字符编码和开发应用