文档保存格式UTF-8

ASCII码:

     C语言中,一个字节对应八位二进制数,每一位二进制数就有0、1两种状态,所以一个字节有2^8=256种不同的状态,美国人最早用一字节的数据表示256个字符,称为ASCII码。ASCII定义了128个字符,也就是只使用了8位二进制数的后七位,最前面的一位统一规定为0



Unicode

问题:

 128个字符来编码英文是完全足够的,但是用来表示其他语言,128个字符是远远不够的,即便用上闲置的最高位,不同国家的编码会不一样。最终,美国人意识到提出一种标准方案来展示世界上所有语言中的所有字符, unicode由此诞生了。

     Eg:

“汉”字在unicode码点是0x6c49需要两个字节来表示,转化为二进制数110110001001001就是他的编码,但是问题又来了,当你译码时,比如看到的两个字节,那它到底表示的是一个两字节字符还是两个一字节字符。

为了解决这个编码问题,编码采用定长编码,选字节的编码方式,即4字节编码。

 


UTF-8

这种情况下,编码译码都能实现一对一,但是又出现了一点小bug:空间的浪费(字符不足四字节时,高位全部补零),所以我们能不能想一种办法既能解决unicode的译码译码问题又不会浪费空间呢?UTF-8解决了这个问题。(既然译码时识别不出一个字节和多个字节的字符,那就在多字节字符上面做一些标志位)

UTF-8可以根据字符的不能变换长度,使用1-4个字节表示一个字符。编码规则如下:

[if !supportLists]1)  [endif]单个字节的字符,同unicode(向后兼容)

[if !supportLists]2)  [endif]对于需要N个字节来表示的字符(N > 1),第一个字节的前N位都设为1,第N + 1位设为0,剩余的N – 1个字节的前两位都设为10,剩下的二进制位使用这个字符的unicode码点来补充。如下:

Unicode 十六进制码点              UTF-8二进制

00000 0000 – 0000 007F  2^4 + 2^3   0xxxxxxx                          2^7

00000 0080 – 0000 07FF  2^7 + 2^4   110xxxxx 10xxxxxx                 2^11

00000 0800 – 0000 FFFF  2^11 + 2^5  1110xxxx 10xxxxxx 10xxxxxx          2^16

00001 0000 – 0010 FFFF  2^16 + 2^5  11110xxx10xxxxxx 10xxxxxx 10xxxxxx   2^21

Eg:

“汉”字unicode的码点0x6c49(2^4+2^4+2^4+2^3),原本只需要两字节表示,高位补零即可。但是这里添加了标志位,对照上图,需要三字节表示。

 格式是:1110xxxx 10xxxxxx 10xxxxxx

0x6c49转为二进制:110110001001001

从地位依次填充(高位补零):  11100110 10110001 10001001

转为十六进制(UTF-8):0xE6 B189

译码时:有多少个1就代表是多少个字节(N个后由一个0隔开)

 


UTF-16

平面的概念:unicode将全世界所有的字符定义在一个集合里,这么多字符不是一次性定义的,而是分区定义。每个区可以存放65535个(2^16)字符,称为一个平面。目前共使用了17(2^4+1)个平面。

基本平面的码点范围:0x0000-0xffff  ,都采用两字节存储,因此不兼容ASCII码

辅助平面的码点范围:0x010000-0x10ffff<2^5>

编码规定:

     基本平面占用两字节,辅助平面占用四字节。

同样的问题:

     译码时怎么区分两字节和四字节字符呢?

在这里使用了另外一种方法:

在基本平面内设置了一个空段:0xD800-0xDFFF,这2^11空间分为两部分,D8000到    DBFF(共2^10空间)称为高位,DC00到DFFF称为底位,为什么要这么称呼呢?

UTF-16把超出基本平面部分的字节分高低位(高8位,底8位),然后分别映射(从地位开始复制,多余位不动)到刚说的基本平面的空段的高低位(高位补零)

 Eg:

     汉子“?”的unicode码点为0x20BB7

基本平面存储为0xffff

超出部分为0x20BB7-0x10000=10BB7

转为二进制:100001011 10110111

补齐20位:0001000010 1110110111

映射:

0001000010(高十位)-> 0XD800(1101101100000000)  :  1101100001000010转十六进制:D842

 1110110111(底十位) ->0xDC00(1101110000000000)  :  1101111110110111转十六进制:DFB7

得到汉字“?”的UTF-16编码为0xD842 0xDFB7


  辅助平面转换公式:

   H = ( num– 0x10000) / 0x400) + 0xD800

   L = ( num– 0x10000) % 0x400) + 0xDC00


UTF-8是对多字符进行标记,不固定长度存储从而节省空间

UTF-16,小于两字节长度的字符固定两字节长度存储,超出就按四字节存储,而四字节分为高低位映射到前两字节存储,也就是只用了两字节空间




总结:

    Unicode是一种可以在计算机上使用的字符编码,它为每一种语言每一个字符都设定了一个二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。使用数字0-0x10FFFF映射字符,最多容纳1114112个字符(的17个平面大小2^16*17,其中有已经使用的平面,也有备用平面或者给用户自定义字符平面等)。

UTF-8、UTF-16、UTF-32是对Unicode字符集不同的编码方式,比如汉字“字”在unicode中对应的数字是23383,把其按照不同的编码方式转换为程序数据如下:(无符号)

UTF-8:0xE6,0xB1,0x89,0xAD,0x97

UTF-16:0x6C49,0x5B57

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352