字符集和字符编码
计算机中存储的信息都是用二进制数表示的(即0和1,逢二进一,这和计算机逻辑电路中的接通和断开两个物理状态对应),而我们在屏幕上看到的英文汉字是二进制数转换的结果。
- 字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
- 字符编码(Character Encoding):在符号集合与数字系统之间建立对应关系,将符号转换为计算机可以接受的数字系统的数。
- 常用的字符集:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等
字符集 | 字符编码 | |
---|---|---|
ASCII(american standard code for information interchange)美国信息交换标准代码 | 主要显示现代英语 | 7位(bits)表示一个字符,共2^7,128个字符 |
EASCII | 追加扩展了一些欧洲常用字符 | 8位(bits)表示一个字符,共2^8,256个字符 |
GB2312 | 国标,用于汉字 | 小于127的字符意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。 在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。 |
GB18030 | 对gb2312追加扩展,支持国内少数名族文字 | 采用多字节编码,与utf-8相同,每个字可以由1个、2个或4个字节组成 |
GBK | 微软利用GB 2312未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码 | 字符有一字节和双字节编码 |
BIG5 | 繁体字 | |
Unicode | 万国码 | uft-32(每个字符都使用4个字节,效率低) / utf-16 / utf-8 |