Unicode

Unicode是一个字符集,旨在收录全世界的每个字符,并为这些字符统一编码。

编码方式:

  • 将世上所有字符按一定的依据,分为17个大的组别。官方话语里将每一个组别称为一个平面(plane)。
  • 每个平面上有2^16 = 65536个位置,依次编号0000-FFFF,理论上可以用来保存65536个字符。
  • 这17个平面分别为 0~16号平面,用16进制数分别表示为0-10。这样世上的每一个字符就有了一个编号。如:
    编号 U+0000 表示第一平面(0号平面)的第一个字符(注意不是U+00000
    编号 U+1FFFF 表示第二平面(1号平面)的最后一个字符
    某个字符的统一编号叫做这个字符的 码点码位(code point)
  • 0号平面称为基本多文种平面,包含了各种语言最常用的字符。如其4E00-9FFF段为中日韩统一表意文字。每个平面的基本信息如下图:

实现方式

Unicode只提供了字符集和每个字符的编码,但在计算机中每个字符的Unicode编码如何存储,先后产生了多种不同的实现方式,如目前流行的UTF-8。

UTF-8

是一种变长的编码方式,使用1-4个字节来保存字符的Unicode编码("8"是指表示一个字符最少需要8个比特位)。如:
字符a 的Unicode编码为U+0061 ,也就是0号平面的第97个字符。计算机只需要存下它的序号97,即:0000 0000 0110 0001的有效部分110 0001,用1字节即可存储。
但是如果一个字符如řU+0159,二进制为0000 0001 0101 1001,其有效部分是9位,那该如何表示呢?自然最少要两个字节。如果简单粗暴的直接用0000 0001 0101 1001表示,又会带来其他麻烦,比如:当遇到一个连续的二进制串 0110 0001 0000 0001 0101 1001,原想表达的是,可机器怎么知道你是0110 0001,0000 0001 0101 1001而不是0110 0001,0000 0001, 0101 1001。所以这就需要有一种手段告诉机器,哪几个字节是用来一起表示一个字符的。utf8的方式是在每个字节前加固定标识:

  • 单个字节标识一个字符的,其首位固定为 0
  • n个字节标识一个字符的,其首字节以n个1接一个0开头,该字符剩下的字节以10开头
  • 除去标识部分剩下的比特位,才是真正可用来有效部分的(所以不妨称为有效位

即(其中x是有效比):
单字节字符: 0xxxxxxx
二字节字符: 110xxxxx 10xxxxxx
三字节字符: 1110xxxx 10xxxxxx 10xxxxxx
...

最初美国人制定了ascii字符集,共128个字符,一个字节最多能表示2^8=256个字符,而它只需要用128个,用 00000000~01111111就能表示完。所以最初的ascii编码是0xxxxxxx的形式,有最高位的 0是浪费着没用的。后来西欧各国利用高位未用的 0,把自己的字符也加进去了,如法语中的 é 编码为10000010,也是一个字节就能表示一个字符,这就是扩展后的ascii码。

注意到utf8里要求单字节字符的第一位是0,这意味着,在 utf8里 ascii拓展后的西欧各国的字符不会再是单字节了,拓展前的美国人最常用的字符,仍然还是单字节。

若n(n>1)个字节表示一个字符,除去标识部分后,有效位位数是5n+1

以汉字“赵”为例,详细说明其编码转换过程。

  • '赵'.charCodeAt(); //36213 可以得到,“赵”的码点为U+8d75
  • 转化成二进制就是1000 1101 0111 0101
  • 刚好16个比特位,根据5n+1>=16,得出最少需要3个字节
  • 所以“赵”的utf8编码格式是:
  • 1110xxxx 10xxxxxx 10xxxxxx
  • 在占位符上填入'赵'的二进制码点,得到赵的utf8编码:
    11101000 10110101 10110101
  • 当不能全部占满空位时,需要在前面补0,比如,汉字
  • '分'.charCodeAt().toString(2) = 101001000000110 // 15位
  • 最少需要三个字节,但是三子节共有16个空位
  • 则前面加0,补足16位,变成0 101001000000110

UTF-16

utf16和utf8很像,也是变长编码,"16"是指表示一个字符最少需要16个比特位。其表示字符只有2字节、4字节两种情况:
二字节:xxxxxxxx xxxxxxxx
四字节:110110xx xxxxxxxx 110111xx xxxxxxxx

当字符为0号平面上的字符时,直接用其码点是二进制码表示。如:
“赵” U+8d751000 1101 0111 0101表示

当字符不是0号平面上的字符时, 转换算法如下:

  • 码点减去 0x10000,即十进制的65536
  • 将结果转换成二进制
  • 将这些位按照110110xx xxxxxxxx 110111xx xxxxxxxx的格式填入空位处

以汉字“𧅄"** U+27144为例**:

  • 码点减去 0x10000,得到0x17144
  • 转换成二进制,得到0001 0111 0001 0100 0100
  • 填入空位,得到11011000 01011100 11011101 01000100,共4字节

这里有两个问题:
1、为什么utf16编码辅助平面时候,要减去一个 0x10000=65536
因为最后一个平面,也就是第17个平面,其长度为21个比特。比如其第一个码点:10000 00000000 00000000
按照utf16 110110xx xxxxxxxx 110111xx xxxxxxxx的格式,最多只能存20位,所以将直接码点下移一个平面

2、为什么是110110和110111?
因为基本平面中,从 [0xD800-0xDFFF] 的码点是空闲的,不对应于任何字符。
0xD800 1101100000000000
0xDFFF 1101111111111111
所以 110110... ~ 110111...不会和基本平面冲突

值得一提的是,js内部使用的是utf16储存字符(JavaScript 引擎内部是自由的使用 UCS-2 或者 UTF-16。大多数引擎使用的是 UTF-16),1个字符2个字节,并规定2个字节的length为1。
所以0号平面的字符长度为1,如'赵'.length === 1
0号平面以外的字符,长度为2,如'𧅄'.length === 2

'𧅄'.charCodeAt(0) //55388,实际是获取的其前两个字节 11011000 01011100 = 55388

所以有时候js计算字符长度,如果包含有其他平面的字符,长度就是错的。要另外想办法。这里提供一个方法:

function countString(str): number {
  let count = 0;
  for (let i = 0; i < str.length; i++) {
    if (isFirstPlainUnicode(str.charCodeAt(i))) {
      count++;
      continue;
    }
    count++;
    i++;
  }
  return count;
}

function isFirstPlainUnicode(charCode: number): boolean {
  const binary = charCode.toString(2);
  return !binary.startsWith('110110') && !binary.startsWith('110111');
}

countString('a开户行😘');

这个方法用来计算emoji的时候,有可能还是会错。这倒不是有bug,而是又写emoji,似乎是由多个emoji组合成的一样。比如:


原始状态,光标可以移到中间

光标可以移动它中间,敲一下空格,还会变成两个emoji。


敲空格之后,变成两个

UTF-32

能找到的详细介绍utf-32的资料太少了,以下内容出自 wiki

UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示221个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。

只能根据最后一句话 "UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。",推测其编码实现应该就是直接将码点转换成32位二进制码
如:“赵” U+8d7500000000 00000000 01001101 01110101

字节序 (Endianness)

在计算机中,对多个字节的二进制数如何存储,不同架构的cpu有不同的处理方式。分为以下两种处理方式:

  1. Big-Endian(大端序)就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。换言之,先从内存中读取到的字节,是高位。即高位在前
  2. Little-Endian(小端序)就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。简言之,低位在前
    如有二进制数 10101011 00110011 (0xab33),其高位字节是ab,低位字节是33。
    假设有低位地址0x0000,高位地址0x0001。
    0x0000存放ab,0x0001存放33,就是大端序;
    0x0000存放33,0x0001存放ab,就是小端序。

假如某台机器,其使用的是小端序。它的读和写都是小端序,它就无需考虑字节序问题,程序总能正常运行。但是当它和另外一台机器交流时,就需要考虑字节序问题。
比如一台小端序的机器,打开了一个大端序编码的文本文件,如果不做任何处理,读取内容就会出问题。
所以文本文件,在生成的时候,会在文本文件头部加上一个标识,表明其字节序(以及其实现方式:utf8 / utf16 / utf32)。

比如,当读取一个文本时,如果读到的开头字节是FE FF,则说明这是一个utf16编码的文本,且是大端序。其标识(BOM ,Byte Order Mark,字节顺序标记)具体对应规则如下图:

现在来一个实例看一下:
我本地有个文本文件:


image.png

可以看到原始状态是utf8编码的,点击图中右下角的红框,将其转化为UTF-16BE


image.png

然后用node的fs读一下文件:
image.png

发现其开头二字节是FF FE,对照上表,完全符合。

需要说明的是,虽然utf8/16/32前面都有这个标识,但实际上utf8是不存在字节序问题的,这是因为utf8的基本处理长度是一个字节。原因如下:
由前面的utf8的编码实现方式可知,每个字节的开头只能是三种情况:

  • 0开头,如0xxxxxxx,表明这个字符只有一个字节
  • 10开头,如10xxxxxx,表明这个字符有n个字节,且本字节不是第一个字节
  • 1...10开头,如1110,表明这个字符有3个字节,且本字节是第一个字节

现在有文本,"你好a"。假设其utf8编码是:
110xxxxx 10xxxxxx (你),1110xxxx 10xxxxxx 10xxxxxx(好),0xxxxxxx(a),共6字节长。
如果是大端序存储,则读取到的数据为:
110xxxxx 10xxxxxx,1110xxxx 10xxxxxx 10xxxxxx,0xxxxxxx
如果是小端序存储,则读取到的数据为:
10xxxxxx 110xxxxx,10xxxxxx 10xxxxxx 1110xxxx,0xxxxxxx
读取某字符的首字节时,其开头:
如果是0开头,知道这个字符只有这一个字节,可以解析。
如果是10开头,知道这是小端序,只需要继续往下读,读到1..10开头的字节时,这个字符结束,可以解析。
如果是1110开头,知道这是大端序,知道这个字符是3个字节,再读两个字节即可解析。
所以,utf8不是不存在字节序问题,而是它自己能判断。

utf16就不一样了,如中文“啊”,00110011 00101010,简记为554A。
以小端序编码会存为 4A55,当一台大端序的机器读取时,就会认为其码点是 u+4A55。此时因为没有信息告诉机器,需要纠正为u+554A,就会解析成其他字符。
utf32也是同样的道理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容