快速理解ASCII、GBK、Unicode、UTF-8、ANSI

文章大部分内容来源于非官方说明,且无法用逻辑推理出结果,准确性仅供参考。

ASCII

计算机是老外发明的,想让计算机实现更多的功能,必然少不了把常用的字母和符号存进去,甚至包含一些特殊符号,于是ASCII码,American Standard Code for Information Interchange就这样诞生了,它一共256(原先128个,后期又新增到256个)个字符,2^8=256,所以刚好一个字节可以存储的下。

GBK

随着计算机流入中国,ASCII无法满足汉字的需求,于是GBK2312诞生了,但是发现GB2312不够强大,于是GBK诞生了,它包含了 GB2312 字符集中的全部 6763 个汉字,以及其它汉字、拉丁字母、符号和其他特殊字符。因此,总体而言,GBK 编码共包含了21886 个字符,由于2^16>>211886,所以用两个字节存储足够了,这就是一个GBK字符编码的汉字,占2个字节大小的原因,但英文字符仍旧占1个字节。

Unicode

每个国家都搞自己的编码,那么不同国家之间的信息传递就会有乱码的情况,unicode就是为了解决这个问题的,起初是utf-32,蕴含着有容乃大的思想,任何字符都占用4个字节,但是很多人觉得造成了空间浪费,流量传输浪费问题。

UTF-8

为了空间浪费的问题,UTF-8诞生了,utf-8采用的是可变长度,也就是英文字符1个字节(兼容了ASCII),汉字3个字节,表情符号4个字节来表示。这会诞生一个问题,解析软件怎么区分需要解析1-4是几个字节的,那么就制定了一个规范:

  • 占用1个字节的字符:二进制编码以0开头。
  • 占用2个字节的字符:第一个字节以110开头,第二个字节以10开头。
  • 占用3个字节的字符:第一个字节以1110开头,第二个字节以10开头,第三个字节以10开头。
  • 占用4个字节的字符:第一个字节以11110开头,第二个字节以10开头,第三个字节以10开头,第四个字节以10开头。

ANSI

这个在Windows记事本下有这个,ANSI 编码是一种由美国国家标准协会(ANSI)制定的编码标准,主要用于英语和其他西欧语言的编码。实际上,ANSI编码是一个众多编码的集合,它并没有明确的定义,不同程序和系统对其理解和实现也不完全相同。

UTF-16

UTF-16 是一种采用 16 位编码的 Unicode 字符编码方式,它是 Unicode 标准的一部分,可以表示全部的 Unicode 字符集范围(而 UTF-8 和 UTF-7 只能部分表示,所以存在兼容性问题)。
虽然 UTF-16 具有可移植性和编码效率高等优点,但是由于它使用的是 16 位编码,因此会占用更多的存储空间,而且在零散的文本处理和传输过程中,需要更多的字节数。。因为和UTF-32一样因存储问题,而没有成为主流。

UTF-16LE

UTF-16和UTF-16LE都是Unicode字符编码的实现方式,其中的“LE”指的是“Little Endian”,表示低字节顺序,而没有“LE”则默认为高字节序。
UTF-16编码采用16位(两个字节)来表示一个Unicode字符,因此每个字符的存储需要占用两个字节,从而可能导致存储和传输效率低下的问题。UTF-16还支持BOM(Byte Order Mark)来标识字节序列的顺序。
UTF-16LE也是UTF-16的一种变体,它采用Little Endian字节序来存储每个字符的两个字节。这种字节序在Intel和AMD等主流计算机中应用广泛。与UTF-16BE(Big Endian)相比,UTF-16LE在内存存储和网络传输时占用的字节顺序更经济,因此它通常用于Windows及其他操作系统和软件中。

GBK与GB2312

GBK是GB2312的升级版,GBK编码在GB2312的基础上又增加了14240个汉字、生僻字等。按照GB2312的编码方式,两个字节已经不够用了,这时候GBK编码制定了新标准:只要出现一个大于127(0x7F)的字节,那么这个字节和它后面的一个字节共两个字节表示一个汉字,这样做的好处是可以同时兼容ASCII和GB2312。

Big5

Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。
中文码分为内码及交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。
Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。
Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。

MySQL中utf8与utf8mb4

utf8:在早期的 MySQL 版本中,utf8 是用来存储 Unicode 字符的字符集,但它只支持最多三个字节的字符编码范围,无法存储表情符号,因此不是真正的utf-8。
utf8mb4:为了解决 utf8 的不足而引入了 utf8mb4 字符集。utf8mb4 支持最多四个字节的字符编码范围,可以表示更广泛的 Unicode 字符,包括一些特殊表情符号(如 Emoji)等,所以推荐使用

MySQL中utf8mb4_general_ci与utf8mb4_unicode_ci

ci表示不区分大小写。
utf8mb4_general_ci 是一种基于字符串二进制的简单排序规则,它不会考虑字符的语言或文化背景,只会判断字符的字节值大小。比如它认为 ‘a’ 和 ‘A’ 是相等的,认为 ‘ä’ 和 ‘a’ 也是相等的。
utf8mb4_unicode_ci 也支持 Unicode 编码,但排序规则更加智能化,把字符进行了分组,分别考虑了字符的语言、文化背景和排序规则。比如它认为 ‘a’ 与 ‘A’ 不同,认为 ‘ä’ 与 ‘a’ 不同,但它会把类似于 ‘ä’、‘ö’、‘ü’ 这样的字符分到一组,并认为它们相等。
综上所述,如果需要对字符的语言、文化背景和排序规则进行精确的排序和比较,建议使用 utf8mb4_unicode_ci。

latin-1、latin-2

用于表示拉丁字母字符和其他特殊字符。它最初是为了表示欧洲语言而设计的,但后来也被广泛用于其他地区和语言。
其中,最常见的 Latin 编码标准有 Latin-1(ISO-8859-1)和 Latin-2(ISO-8859-2)。
Latin-1 编码涵盖了西欧语言(如英语、法语、德语、西班牙语等)中的基本拉丁字母字符以及一些特殊字符和符号。
Latin-2 编码扩展了 Latin-1,覆盖了中欧语言(如捷克语、波兰语、匈牙利语等)中的字符。

BOM

BOM(Byte Order Mark)是一个特殊的字符序列,用于表示文本数据的字节顺序(即大端序或小端序)。它通常作为文本文件的开头几个字节出现。
BOM 在处理文本文件时具有重要作用,它可以帮助确定文本数据的正确编码方式,从而正确解析和显示文本内容。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容