什么是字符编码

字符编码,编码的意思是指将数据通过一定方式表达或储存。所以字符编码就是字符的表现、储存方式,也就是字符集的实现方式。

对于一个字符集来说要正确编码转码一个字符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character set)、字符编码(character encoding form)。其中字库表是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集,即用一个编码值code point来表示一个字符在字库中的位置。字符编码,将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中A在表中排第65位,而编码后A的数值是0100 0001也即十进制的65的二进制转换结果。

字符编码 每个字符字节数
ASCII 1
UCS-2(Unicode) 2
UCS-4(Unicode) 4
UTF-8(Unicode) 1 - 6
UTF-16(Unicode) 2 - 4
GBK/GB2312(中文) 1 - 2
GB18030(CJK) 1 - 4

从上表可以看出,不同的字符编码用不同的方式表达字符集。

所以,根据所需要的字节数不同,把恒用2个字节表示一个字符的字符集(编码),叫做双字节字符集(Double-Byte Character Set,DBCS),其他的叫做多字节字符集(Multi-Byte Character Set,MBCS)。如上表中只有UCS-2才是DBCS字符集。

常见的字符集:

  • Unicode:也叫统一字符集,它包含了几乎世界上所有的已经发现且需要使用的字符(如中文、日文、英文、德文等)。
  • ASCII:早期的计算机系统只能处理英文,所以ASCII也就成为了计算机的缺省字符集,包含了英文所需要的所有字符。
  • GB2312:中文字符集,包含ASCII字符集。ASCII部分用单字节表示,剩余部分用双字节表示。
  • GBK:GB2312的扩展,但完整包含了GB2312的所有内容。
  • GB18030:GBK字符集的超集,常叫大汉字字符集,也叫CJK(Chinese,Japanese,Korea)字符集,包含了中、日、韩三国语言中的所有字符。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 基础知识 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通...
    海马啊你没有腿阅读 2,586评论 0 0
  • 在了解什么是字符编码之前,首先要了解什么是字符集? 我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存...
    饥人谷_oathy阅读 3,641评论 0 1
  • 一、前言 一直以来,都对字符编码有一个较模糊的概念,更谈不上懂得其中的原理。本文记录自己对字符编码的学习。 二、概...
    青鸣阅读 6,582评论 0 0
  • 计算机是如何存储数据的 在谈什么是字符编码前,我们首先要知道一个概念,计算机是如何存储数据的:计算机是由逻辑电路组...
    七里之境阅读 2,415评论 0 1
  • 原文在这里:各种字符集和编码详解 在软件的编码和实现中,我们可能会碰到个 一个比较头疼的问题--编码,不同字符间的...
    舌尖上的大胖阅读 5,825评论 0 2

友情链接更多精彩内容