GBK、GB2312、GB18030、UTF-8、UTF-16与Unicode详解

一、核心概念与区别

1. GB2312

定义：中国1980年发布的简体中文编码标准，覆盖6763个汉字和682个符号，采用双字节编码（首字节范围：0xA1-0xF7，次字节：0xA1-0xFE）。
局限：仅支持常用简体汉字，无法表示繁体字或少数民族文字。

2. GBK

扩展性：在GB2312基础上新增约14,000个字符（总计21,000+），支持繁体字、日韩汉字及符号，仍为双字节编码（首字节扩展至0x81-0xFE）。
应用场景：国内传统系统和Web应用，兼容性优于GB2312。

3. GB18030

全面覆盖：最新国家标准（2022版），支持超70,000字符（含少数民族文字、古汉字），采用变长编码（1/2/4字节）。
强制场景：中国政务、金融等领域必须使用，但国际兼容性较差。

4. UTF-8

编码范围：覆盖 Unicode 所有字符（U+0000 至 U+10FFFF），包括全球语言、符号及表情。
存储方式：变长编码（1-4 字节）：
- 1 字节：兼容 ASCII（0x00-0x7F）。
- 3 字节：中文字符（如“严”编码为 E4B8A5）。
- 4 字节：Emoji 表情（如 😊 编码为 F09F988A）。
应用场景：互联网数据传输、多语言混合文本存储、现代操作系统默认编码。

5. UTF-16

编码规则：Unicode的定长/变长实现（2或4字节），存在字节序问题（需BOM标记区分大端/小端）。
应用场景：内存处理高效（如Java、JavaScript内部使用），但不兼容ASCII。

6. Unicode

统一标准：为全球字符分配唯一码点（如“中”对应U+4E2D），不依赖具体编码方式。
核心角色：作为编码转换的中介层，所有区域性编码（如GBK）均需通过Unicode与其他编码互转。

7.UTF8MB4（MySQL 扩展版 UTF-8）

编码范围：完整支持 Unicode 四字节字符（如 Emoji、罕见汉字）。
存储方式：变长编码（1-4 字节），与 UTF-8 规则相同，但 MySQL 中默认 utf8 仅支持最多 3 字节（即 utf8mb3）。
应用场景：数据库存储需支持 Emoji 或四字节字符的场景（如社交媒体、多语言应用）。

8.ASCII（American Standard Code for Information Interchange）

编码范围：仅支持 128 个字符，包括英文字母（大小写）、数字、标点符号及控制字符（如换行符、制表符等）。
存储方式：单字节编码（7 位有效位，最高位固定为 0）。
应用场景：纯英文文本处理，如早期计算机系统、简单配置文件等。
局限性：无法表示非英语字符（如中文、表情符号等），国际化支持几乎为零。
兼容性：UTF-8 和 UTF8MB4 完全兼容 ASCII。例如，ASCII 字符 A（十进制 65）在 UTF-8 中仍以单字节 0x41 存储。

二、编码转换关系

1. 区域性编码（GB系列） ↔ Unicode

GB2312/GBK/GB18030需通过映射表转换为Unicode码点。例如，“安”的GB2312编码0xB0B2对应Unicode码点U+5B89，再通过UTF-8/UTF-16存储。

2. Unicode ↔ UTF-8/UTF-16

UTF-8：直接按规则转换码点。例如，U+4E2D（中）→ 二进制11100100 10111000 10101101 → 十六进制E4B8AD。
UTF-16：固定两字节或代理对（四字节），如U+1F600（😀）→ 0xD83D 0xDE00。

3. 区域性编码 ↔ UTF-8/UTF-16

必须通过Unicode中转，无法直接转换。例如GBK到UTF-8需先转Unicode码点，再按UTF-8规则编码。

转换原则：区域性编码（GB系列）必须通过Unicode中转，禁止直接互转
 graph LR
   GB2312 -->|查表映射| Unicode
   GBK -->|查表映射| Unicode
   GB18030 -->|算法转换| Unicode
   Unicode -->|编码规则| UTF-8
   Unicode -->|编码规则| UTF-16

三、核心对比与适用场景

编码标准	字符覆盖	存储效率（中文）	国际兼容性	典型应用场景
GB2312	简体中文基础	2字节/字	低	传统中文系统、本地文档
GBK	扩展中文	2字节/字	中	国内Web应用、兼容旧系统
GB18030	全字符（含Unicode）	2/4字节/字	低	政务、金融、强制标准场景
UTF-8	全球字符	3字节/字	高	互联网、多语言混合环境
UTF-16	全球字符	2/4字节/字	中	内存处理（Java、JavaScript）

四、总结与建议

1、ASCII

适用场景：纯英文环境、低资源消耗场景（如嵌入式系统）。
缺点：无法国际化，已逐渐被 UTF-8 替代。

2、UTF-8

通用选择：覆盖全球语言，适合网页、文件存储及跨平台应用。
注意事项：需统一前后端编码设置，避免乱码。

3、UTF8MB4

数据库必选：需存储 Emoji 或罕见字符时，MySQL 必须使用 utf8mb4。
性能权衡：存储空间略增，但现代硬件影响可忽略；索引字段需调整长度（如 varchar(191)）。

通过理解编码的核心差异与转换逻辑，可高效处理多语言数据，避免乱码和存储异常。如需深入技术细节，可参考国家标准文档或Unicode官方规范。

关于常用中文编码--你想知道的都在这了

关于常用中文编码--你想知道的都在这了

GBK、GB2312、GB18030、UTF-8、UTF-16与Unicode详解

一、核心概念与区别

1. GB2312

2. GBK

3. GB18030

4. UTF-8

5. UTF-16

6. Unicode

7.UTF8MB4（MySQL 扩展版 UTF-8）

8.ASCII（American Standard Code for Information Interchange）

二、编码转换关系

1. 区域性编码（GB系列） ↔ Unicode

2. Unicode ↔ UTF-8/UTF-16

3. 区域性编码 ↔ UTF-8/UTF-16

三、核心对比与适用场景

四、总结与建议

1、ASCII

2、UTF-8

3、UTF8MB4

相关阅读更多精彩内容

友情链接更多精彩内容