字符，字符集，字符编码，编码页，字体

吾国码农应该都遇到过乱码的问题，然后网上搜索一番添加一些设置，乱码就消失了，也不继续追究本质。
本文试图讲清楚标题提到的概念，从此遇到乱码从容应对。

字符（character），就是【a】,【A】,【请】等书写符号。
字符集（character set），通常就是某种语言字符集合，比如英语就是ascll字符集，中文有GBK等

注意，不是每种语言只对应一种字符集（比如GB2312 ，GBK，GB18030都包含了常用汉字，后者是前者的超集），而且字符集也不是只对应一种语言，例如Unicode字符集就包含所有语言字符,字符集只是设计者为了给字符编码（Code Point/Numbering）设计编码时，为了收录到命名的字符集合，但是通常设计者都为字符集设计了对应的编码规范。

字符编码（character code point）,给字符集里的字符编号
编码页（code page），在unicode发明之前，各个地区都用2字节编码自己的字符集，相同的编码对应不同的字符，为了本地化，windows发明了编码页，来对应不同的字符集。
字符编码（character encoding），对给定的字符编码（code point）编码成字节表示（byte sequence）

早期，字符被编号后，存储时就按照编号的方式存储，没有encoding的过程，后来发明Unicode后，发现如果按照Unicode的编号直接存储的话，对于英文字符就有很大存储浪费，因为任意字符都需要2字节存储，后来人们发明UTF-8这种编码方式，这样UTF-8就可以一个字节表示英文字符，2个以上字节表示汉字字符。

字体（Font），定义了字符的图形表示，现在的软件展示字符时用Unicode表示，字体是Unicode编码和字符图形的映射，而以往比如WindowsCMD控制台，没有对应Unicode，则用编码页来区分，所以字体就是字符编码金和代码页到字符图形的映射。

相同字符的不同字体，显示图形不一样。字体通常与具体的字符集相关，因为字体是针对某一字符集设计的。如果用表示日语的字体显示中文，就会发现不一致，中日都有的汉字正常显示，日文没有的汉字，就有点怪（其实是编辑器尝试用其他字体显示的原因）。另外可以看出，字体与具体编码无关，不同编码的同一字符，用相同字体显示是一样的图形。只是字符集通常与字符编码用相同的名称表示，容易混淆，比如GB2312,即是字符集，又是字符编码。

好了，现在我们可以想象，文本文件存储在磁盘上，都是一系列的bytes，如果不告诉文本编辑器该文件的encoding，编辑器会尝试用默认的编码（依赖于操作系统设置）又或者自己探测（detect，比如文件开头有FFEF或者EFFF字节就表明UTF-16编码，有很多10，110开头的字节，很可能是UTF-8编码）并尝试decode，如果没有猜对，那就会显示乱码。

下面我们通过文本编写，保存/传输以及浏览器显示来了解一下乱码可能的原因以及解决办法。
我们用输入法在notepad输入文字，输入法首先产生Unicode编码在内存，当我们保存时编辑器首先尝试用系统默认的编码保存，当我们输入的字符不包含在本地编码对应的字符集时，就会收到类似提示：文本包含Unicode字符，如果继续保存则丢失信息，请选择unicode方案保存。此时一定要选择unicode方案保存，否则信息丢失就回天无力。
好了，接下来我们要传输文本到浏览器，一般我们只是简单的传输文件（2进制流传输）而不对文件进行转码，但是浏览器不知道文件的编码就有可能显示乱码，所以我们需要通过http头的Content-Type: text/plain; charset=”UTF-8″来告诉浏览器用正确的编码来解析。所以如果浏览器显示乱码，就有一下几种可能
1，没有content-type头，浏览器默认的编码与实际不同，尝试调整浏览器编码可以解决
2，有content-type头，但是与实际文件编码不同，重新制定content-type头，或者传送文件内容之前对文件按照content-type头制定的编码进行转码在传输。
3，content-type和文件内容都正确，还是乱码，浏览器端根本安装没有对应的字符集，安装相应的语言（同时会安装相应的字符集，编码，字体等）。

参考
https://www.w3.org/International/questions/qa-what-is-encoding
https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/
https://wenku.baidu.com/view/cb9fe505cc17552707220865.html
https://blogs.msdn.microsoft.com/shawnste/2005/03/15/whats-the-difference-between-an-encoding-code-page-character-set-and-unicode/
https://www.zhihu.com/question/21721472

字符，字符集，字符编码，编码页，字体

字符，字符集，字符编码，编码页，字体

相关阅读更多精彩内容

友情链接更多精彩内容