吾国码农应该都遇到过乱码的问题,然后网上搜索一番添加一些设置,乱码就消失了,也不继续追究本质。
本文试图讲清楚标题提到的概念,从此遇到乱码从容应对。
字符(character),就是【a】,【A】,【请】等书写符号。
字符集(character set),通常就是某种语言字符集合,比如英语就是ascll字符集,中文有GBK等
注意,不是每种语言只对应一种字符集(比如GB2312 ,GBK,GB18030都包含了常用汉字,后者是前者的超集),而且字符集也不是只对应一种语言,例如Unicode字符集就包含所有语言字符,字符集只是设计者为了给字符编码(Code Point/Numbering)设计编码时,为了收录到命名的字符集合,但是通常设计者都为字符集设计了对应的编码规范。
字符编码(character code point),给字符集里的字符编号
编码页(code page),在unicode发明之前,各个地区都用2字节编码自己的字符集,相同的编码对应不同的字符,为了本地化,windows发明了编码页,来对应不同的字符集。
字符编码(character encoding),对给定的字符编码(code point)编码成字节表示(byte sequence)
早期,字符被编号后,存储时就按照编号的方式存储,没有encoding的过程,后来发明Unicode后,发现如果按照Unicode的编号直接存储的话,对于英文字符就有很大存储浪费,因为任意字符都需要2字节存储,后来人们发明UTF-8这种编码方式,这样UTF-8就可以一个字节表示英文字符,2个以上字节表示汉字字符。
字体(Font),定义了字符的图形表示,现在的软件展示字符时用Unicode表示,字体是Unicode编码和字符图形的映射,而以往比如WindowsCMD控制台,没有对应Unicode,则用编码页来区分,所以字体就是字符编码金和代码页到字符图形的映射。
相同字符的不同字体,显示图形不一样。字体通常与具体的字符集相关,因为字体是针对某一字符集设计的。如果用表示日语的字体显示中文,就会发现不一致,中日都有的汉字正常显示,日文没有的汉字,就有点怪(其实是编辑器尝试用其他字体显示的原因)。另外可以看出,字体与具体编码无关,不同编码的同一字符,用相同字体显示是一样的图形。只是字符集通常与字符编码用相同的名称表示,容易混淆,比如GB2312,即是字符集,又是字符编码。
好了,现在我们可以想象,文本文件存储在磁盘上,都是一系列的bytes,如果不告诉文本编辑器该文件的encoding,编辑器会尝试用默认的编码(依赖于操作系统设置)又或者自己探测(detect,比如文件开头有FFEF或者EFFF字节就表明UTF-16编码,有很多10,110开头的字节,很可能是UTF-8编码)并尝试decode,如果没有猜对,那就会显示乱码。
下面我们通过文本编写,保存/传输以及浏览器显示来了解一下乱码可能的原因以及解决办法。
我们用输入法在notepad输入文字,输入法首先产生Unicode编码在内存,当我们保存时编辑器首先尝试用系统默认的编码保存,当我们输入的字符不包含在本地编码对应的字符集时,就会收到类似提示:文本包含Unicode字符,如果继续保存则丢失信息,请选择unicode方案保存。此时一定要选择unicode方案保存,否则信息丢失就回天无力。
好了,接下来我们要传输文本到浏览器,一般我们只是简单的传输文件(2进制流传输)而不对文件进行转码,但是浏览器不知道文件的编码就有可能显示乱码,所以我们需要通过http头的Content-Type: text/plain; charset=”UTF-8″来告诉浏览器用正确的编码来解析。所以如果浏览器显示乱码,就有一下几种可能
1,没有content-type头,浏览器默认的编码与实际不同,尝试调整浏览器编码可以解决
2,有content-type头,但是与实际文件编码不同,重新制定content-type头,或者传送文件内容之前对文件按照content-type头制定的编码进行转码在传输。
3,content-type和文件内容都正确,还是乱码,浏览器端根本安装没有对应的字符集,安装相应的语言(同时会安装相应的字符集,编码,字体等)。
参考
https://www.w3.org/International/questions/qa-what-is-encoding
https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/
https://wenku.baidu.com/view/cb9fe505cc17552707220865.html
https://blogs.msdn.microsoft.com/shawnste/2005/03/15/whats-the-difference-between-an-encoding-code-page-character-set-and-unicode/
https://www.zhihu.com/question/21721472