字符,字符集,字符编码,编码页,字体

吾国码农应该都遇到过乱码的问题,然后网上搜索一番添加一些设置,乱码就消失了,也不继续追究本质。
本文试图讲清楚标题提到的概念,从此遇到乱码从容应对。

字符(character),就是【a】,【A】,【请】等书写符号。
字符集(character set),通常就是某种语言字符集合,比如英语就是ascll字符集,中文有GBK等

注意,不是每种语言只对应一种字符集(比如GB2312 ,GBK,GB18030都包含了常用汉字,后者是前者的超集),而且字符集也不是只对应一种语言,例如Unicode字符集就包含所有语言字符,字符集只是设计者为了给字符编码(Code Point/Numbering)设计编码时,为了收录到命名的字符集合,但是通常设计者都为字符集设计了对应的编码规范。

字符编码(character code point),给字符集里的字符编号
编码页(code page),在unicode发明之前,各个地区都用2字节编码自己的字符集,相同的编码对应不同的字符,为了本地化,windows发明了编码页,来对应不同的字符集。
字符编码(character encoding),对给定的字符编码(code point)编码成字节表示(byte sequence)

早期,字符被编号后,存储时就按照编号的方式存储,没有encoding的过程,后来发明Unicode后,发现如果按照Unicode的编号直接存储的话,对于英文字符就有很大存储浪费,因为任意字符都需要2字节存储,后来人们发明UTF-8这种编码方式,这样UTF-8就可以一个字节表示英文字符,2个以上字节表示汉字字符。

字体(Font),定义了字符的图形表示,现在的软件展示字符时用Unicode表示,字体是Unicode编码和字符图形的映射,而以往比如WindowsCMD控制台,没有对应Unicode,则用编码页来区分,所以字体就是字符编码金和代码页到字符图形的映射。

相同字符的不同字体,显示图形不一样。字体通常与具体的字符集相关,因为字体是针对某一字符集设计的。如果用表示日语的字体显示中文,就会发现不一致,中日都有的汉字正常显示,日文没有的汉字,就有点怪(其实是编辑器尝试用其他字体显示的原因)。另外可以看出,字体与具体编码无关,不同编码的同一字符,用相同字体显示是一样的图形。只是字符集通常与字符编码用相同的名称表示,容易混淆,比如GB2312,即是字符集,又是字符编码。

好了,现在我们可以想象,文本文件存储在磁盘上,都是一系列的bytes,如果不告诉文本编辑器该文件的encoding,编辑器会尝试用默认的编码(依赖于操作系统设置)又或者自己探测(detect,比如文件开头有FFEF或者EFFF字节就表明UTF-16编码,有很多10,110开头的字节,很可能是UTF-8编码)并尝试decode,如果没有猜对,那就会显示乱码。

下面我们通过文本编写,保存/传输以及浏览器显示来了解一下乱码可能的原因以及解决办法。
我们用输入法在notepad输入文字,输入法首先产生Unicode编码在内存,当我们保存时编辑器首先尝试用系统默认的编码保存,当我们输入的字符不包含在本地编码对应的字符集时,就会收到类似提示:文本包含Unicode字符,如果继续保存则丢失信息,请选择unicode方案保存。此时一定要选择unicode方案保存,否则信息丢失就回天无力。
好了,接下来我们要传输文本到浏览器,一般我们只是简单的传输文件(2进制流传输)而不对文件进行转码,但是浏览器不知道文件的编码就有可能显示乱码,所以我们需要通过http头的Content-Type: text/plain; charset=”UTF-8″来告诉浏览器用正确的编码来解析。所以如果浏览器显示乱码,就有一下几种可能
1,没有content-type头,浏览器默认的编码与实际不同,尝试调整浏览器编码可以解决
2,有content-type头,但是与实际文件编码不同,重新制定content-type头,或者传送文件内容之前对文件按照content-type头制定的编码进行转码在传输。
3,content-type和文件内容都正确,还是乱码,浏览器端根本安装没有对应的字符集,安装相应的语言(同时会安装相应的字符集,编码,字体等)。

参考
https://www.w3.org/International/questions/qa-what-is-encoding
https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/
https://wenku.baidu.com/view/cb9fe505cc17552707220865.html
https://blogs.msdn.microsoft.com/shawnste/2005/03/15/whats-the-difference-between-an-encoding-code-page-character-set-and-unicode/
https://www.zhihu.com/question/21721472

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容