字符编码介绍及常见问题总结

目录

  1. 了解字符编码
  2. Unicode与UTF-8,UTF-16之间的关系
  3. 字符编码常见问题
  4. 相关资料链接

1. 了解字符编码

字符编码,即其字面意,就是每一个字符都对应一个编码(根据规格不同,最终得到的编码结果也不同)。我们在日常使用中,经常接触到的字符编码有以下三种:ASCII,ANSI,Unicode。

  1. ASCII编码: 是这三种编码中最原始的编码方式,即采用一个字节(8位二进制位)对字符进行编码。低7位二进制位进行编码,第8位通常为0,十进制可以表示为0128,十六进制为0x000x8F。因此ASCII可以标识128个常用字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。

  2. ANSI编码: 是各个国家对ASCII的扩充,它根据用户所使用的系统的不同而不同,如在中文操作系统下,字符编码为GB2312编码,而在日文操作系统下,则是ANSI 编码代表 JIS 编码等。
    因此也会出现一个问题:如果在中文系统中保存为ANSI编码,那么在日文操作系统中,直接打开就会出现乱码,因为此时日文系统的ANSI编码代表的是JIS编码,而保存的编码格式是GB2312编码。

  3. Unicode编码: 上述中的ANSI编码方式得到的字符编码,由于其编码规范都具有区域性,因此,可能会出现,同一个字符使用不同编码方式时,出现不同编码值;同一个编码值在不同的编码方式中,代表的字符也不同。因此Unicode编码出现了,它统一了字符编码规范,使得字符和编码值实现一一对应的关系。

2. Unicode与UTF-8,UTF-16之间的关系

UTF-8,UTF-16出现的原因

根据上面提到的Unicode已经满足了人们的同意编码的要求,但是为什么还会出现UTF-8和UTF-16这两种编码方式呢?

主要原因:直接使用Unicode编码的效率不高,比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号,那么每个英文字母前都必然有三个字节是0,这对存储和传输来说都很耗资源

因此,UTF-8和UTF-16对于Unicode来说,就是提供了额外的编码方式。用特定的编码规则来解决Unicode编码的效率问题

UTF-8,UTF-16如何解决效率问题
UTF-8不同字符对应编码值

由上图可知,一个英文字符占用1个字节,一个中文字符占用3个字节,一个表情(特殊字符)占用四个字节。

可以看出,UTF-8根据不同的字符类型,采用不同的字节进行存储,相对有上面提到的UCS-4来说,对任意字符都采用4字节存储,会更加的高效。

对于UTF-16编码,在U+0000 - U+FFFF范围类,都固定是使用2个字节进行存储,因此不管是中文还是因为字符,都是用两个字节。

UTF-8,UTF-16转换规则
UTF-8 
U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX 
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX 
U+10000 ~ U+10FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

UTF-16 
U+0000 - U+FFFF         xxxxxxxx xxxxxxxx
U+10000 - U+10FFFF   110110xx xxxxxxxx 110111xx xxxxxxxx

如,‘我’的Unicode编码为6211,如果采用UTF-8编码,该编码落在U+ 0800 ~ U+ FFFF范围内,因此其转换方式为


Unicode转化为UTF-8
UTF-8,UTF-16使用场景
  1. UTF-8是目前互联网上最常用的一种编码格式。
  2. UTF-8的优势在于,其英文字符只需要1个字节来表示,但是中文字符却需要3个字节。
  3. UTF-16的优势在于,其中文字符只需要2个字节来表示,但是英文字符也需要2个字节。

因此,如果文本中,主要是中文字符,则使用UTF-16;主要使用英文字符,则使用UTF-8。当然也要适当考虑第一条,即通用性。

3. 字符编码常见问题

乱码问题

正常情况下,主要由于文本的编码方面出现问题:

  1. 使用ANSI编码进行存储
    如上面提到的,在不同语言的操作系统中,打开使用ANSI编码保存的文本时,就会出现保存和打开时的编码方式不一致,如果在中文系统中保存为ANSI编码,那么在日文操作系统中,直接打开就会出现乱码,因为此时日文系统的ANSI编码代表的是JIS编码,而保存的编码格式是GB2312编码。

  2. 本地编辑器设置打开的编码方式不正确
    每个文本编辑器中都可以设置文本的编码格式。如sublime中文本文件默认的编码格式即为‘utf-8’,如果文本保存的格式为GBK,使用sublime打开时,默认使用uft-8格式,这就导致中文出现乱码。

sublime中设置默认编码格式

在sublime中,默认不会显示文本的字符编码,需要手动修改配置文件,菜单Perference → Settings – User,修改用户配置,覆盖默认配置。

sulime中默认不展示编码格式
在用户配置中进行配置
最终显示效果
windows中文件文件编辑器的问题

千万不要使用Windows自带的记事本编辑任何文本文件。原因是Microsoft开发记事本的团队使用了一个非常弱智的行为来保存UTF-8编码的文件,他们自作聪明地在 每个文件开头添加了0xefbbbf(十六进制)的字符,你会遇到很多不可思议的问题,比如,网页第一行可能会显示一个“?”,明明正确的程序一编译就报语法错误,等等,都是由记事本的弱智行为带来的。建议你下载Notepad++代替记事本,不但功能强大,而且免费!记得把Notepad++的默认编码设置为UTF-8 without BOM即可。

网络传输中文件字符编码问题

下面针对一个最简单的HTML文件进行讲解:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="gbk">
    <title>Document</title>
</head>
<body>
    welcome to Beijing! 欢迎来到北京!😊😊😊
</body>
</html>
http.createServer(function(req, res) {
    let content = fs.readFileSync('./test.html', 'utf-8');
    res.setHeader('Content-Type', 'text/html;')
    res.write(content);

    res.end();
})

此时,如果我们使用utf-8编码保存HTML文件,然后我们在服务器中,使用utf-8编码形式读取文件。但是此时,我们访问服务器,获取的html页面却得到了乱码。


访问页面出现乱码

这是为什么呢?

仔细观察,页面头部的meta标签。

<meta charset="gbk">

这个标签,告诉浏览器,这个html字符编码是gbk编码,因此浏览器就会使用gbk编码的方式识别字符,因此会出现乱码。

但是,如果你在响应头中,设置charset=utf-8',则可以解决这个问题。

res.setHeader('Content-Type', 'text/html;charset=utf-8')

此时,浏览器就会忽略<meta charset="gbk">标签,使用响应头中标识的字符集,浏览器页面也会正常展示。

页面正常展示

4. 相关资料链接

各种字符编码介绍

文字编码那些事儿

Windows记事本问题

sublime设置字符编码

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,976评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,249评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,449评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,433评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,460评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,132评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,721评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,641评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,180评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,267评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,408评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,076评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,767评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,255评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,386评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,764评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,413评论 2 358

推荐阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,503评论 0 13
  • 你要走了吗,未来的地方你一定可以遇到有共同爱好的人,也有实力强又热心的朋友,你会忘记曾经和你意见相左又笨笨的我,那...
    philosophydier阅读 196评论 0 0
  • 构树,别名楮桃,常见的最低调的树。树皮是制造宣纸、丝纺、钞票的好原料。该树具有很强的生存能力、药用价值、抗污染能力...
    木兰sunnyxu阅读 188评论 2 1
  • 生活中面临的所有对抗力量,都是为了提高你的生存技能。后来,你不再找别人倾诉,也不再找别人为你分担,而是一个人默默地...
    野人8093阅读 138评论 0 0