UTF-8与GBK字符集解析

字符集的三个要素

字符表：要显示的字符的集合（例如所有的英文字符、所有的汉字）
字符编码：字符表中的字符对应的二进制表示
字符集：定义了一种规则，将一串二进制数字解释为一个字符

Unicode编码

Unicode是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。目前已经编码了12万+的字符。—— 维基百科

简单来说，Unicode就是给世界上存在的字符都赋予唯一的二进制编码。

Unicode直接做字符集的问题

因为Unicode要编码所有可能的字符，那么每个字符占用的字节长度就会变多。以英文为例，一个英文字符使用ASCII码只需要一个字节，而用Unicode需要4个字节，甚至更多。并且前面的字节都是0。这样纯英文文件的存储大小就会成倍扩大，是极大的浪费。

UTF-8编码

一种变长的编码方式，基于Unicode的一种实现。它使用1--4个字节表示一个字符，根据不同的字符变化字节的长度，可以节省空间。编码规则如下：

对于单字节的字符，字节的第一位设为0，后面7位是这个字符的unicode码。ASCII码表中的字符，UTF-8编码与其ASCII码保持一致。
对于n个字节的字符（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位均设为10。剩余的二进制位，从后向前填上这个符号的unicode码。用0填充未使用的二进制位。

Unicode范围	编码格式	剩余位数
000000 – 00007F	0xxxxxxx	7位
000080 – 0007FF	110xxxxx 10xxxxxx	11位
000800 – 00FFFF	1110xxxx 10xxxxxx 10xxxxxx	16位
010000 – 10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	21位

根据上表可以看出，UTF-8剩余可以填的位数，决定了对应Unicode编码的范围。下面举个转换的例子：
"樊"的unicode是6A0A（0110 1010 0000 1010），查表可知，6A0A属于第三行的范围，因此"樊"的UTF-8编码需要三个字节，即格式是 1110xxxx 10xxxxxx 10xxxxxx 。然后，从6A 0A的最后一个二进制位开始，从后向前填入格式中的x，多出的位补0。最终，"樊"的UTF-8编码是11100110 10101000 10001010（E6 A8 8A）
由此可以总结出字符用UTF-8编码的规律：

4个字节的UTF-8十六进制编码一定是以F开头
3个字节的UTF-8十六进制编码一定是以E开头
2个字节的UTF-8十六进制编码一定是以C或D开头
1个字节的UTF-8十六进制编码一定是以小于8的数字开头

注:UTF-8并没有编码所有的Unicode的字符，只包含了第0号平面(plane)和部分1号平面的字符。这属于更深层次的探究，感兴趣的读者可以通过UTF-8与Unicode字符平面映射了解。

中文编码

GB2312

该字符集使用2个字节表示一个字符。简单地理解，一个小于127的字节的意义与ASCII码相同，但两个大于127的字节连在一起时，就是GB2312编码的字符。以下是两个字节的具体范围：
第一个字节的范围是0xA1(161)–0xF7(247) ；第二个字节的范围是0xA1(161)–0xFE(254)
共收录了6763个汉字，还包括拉丁字母、希腊字母、日文字符。并对 ASCII 里已有的数字、标点、字母赋予了两个字节的编码，这就是”全角”字符，而小于127的就称为”半角”字符。

GBK

由于GB2312仅包含了常用汉字，没有编码生僻字以及繁体字，GBK就对其进行了扩展。简单地理解，只要第一个字节大于127，不管后面的字节是否大于127，就是GBK编码的字符。以下是两个字节的具体范围：
第一个字节的范围是0x81(129)–0xFE(254) ；第二个字节范围一部分在0x40(64)–0x7E(126)，另一部分在0x80(128)–0xFE(254)
这样扩展之后的编码方案被称为 GBK 标准，GBK包括了GB2312 的所有内容，提供了23940个编码，使用了21886个。

中文编码的存在价值

UTF-8编码汉字通常需要三个字节，而GBK只需要两个字节，所以对于纯中文、不考虑国际化，且对流量和存储大小比较敏感的应用，可以使用GBK编码节省存储空间和传输流量。

参考资料

原博文发布在个人博客，欢迎访问！！

最后编辑于：2017.12.08 04:56:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,321评论 6赞 543
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,559评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,442评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,835评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,581评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,922评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,931评论 3赞 447
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,096评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,639评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,374评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,591评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,104评论 5赞 364
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,789评论 3赞 349
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,196评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,524评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,322评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,554评论 2赞 379