字符编码,Unicode,UTF-8 的关系

Unicode

Unicode 是通用的字符编码标准,可以支持世界上所有的字符,最新版是2017年7月20发布的 Unicode® 10.0.0。版本10增加了8,518个字符,总共有 136,690 个字符。

Unicode 和 UTF-8、UTF-16、UTF-32 的关系

Unicode

Unicode 是一种编码标准,定义了每个字符对应的一个二进制数,只是字符和数之间的对应关系(比如 A 对应 0041)。但没有定义怎样把这个二进制数保存起来。Unicode 需要保存或者传输的时候,需要确定 Unicode 的具体实现。The Unicode Standard 支持三种编码方式(UTF-8、UTF-16、UTF-32)。UTF 的全称是 Unicode Transformation Format。

UTF-8

UTF-8 把所有的 unicode 字符转换到不定长度 byte 的编码。Unicode 中对应 ASCII 的字符,与 ASCII 字符编码一样,只用一个 byte,比较省空间。

UTF-16

常用的字符被编码到 16 bit 空间,其他不太常用的字符编码到 32 bit 空间。

UTF-32

所有字符被编码到 32 bit 空间。速度最快,占用空间最大。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容