字符集编码和编码字符集


字符集

  • 字符的集合,没有编号

编码字符集(charset)

  • 为字符集的每一个字符指定一个编号,即代码点(code point) 。

字符集编码(encoding)

  • 字符的code point(码点)不一定是该字符在电脑中存储中使用的值。字符在电脑中存储的值由字符集编码决定。

  • code unit(代码单元或码元)仅仅针对字符集编码,是字符集编码中对一个字符编码后的最小存储单元。在UTF-8中是一个字节,因为UTF-8在将字符编码为1个,2个,3个,或者4个。在UTF-16中,代码单元变成了两个字节,因为在UTF-16中字符可以被编码为2个或者4个字节(也就是java里面的1个或者2个char)。

具体的编码字符集和字符集编码

编码字符集 字符集编码
Unicode UTF-8,UTF-16,UTF-32
GB2312 GB2312
GBK GBK
ASCII (ISO-646) ASCII(ISO-646)
扩展的ASCII 扩展的ASCII(ISO-8859-*),例如Latin-1(ISO-8859-1)

其他

  • 创建了一张xml页面,声明encoding为UTF-8,和html中的charset一样,只是告诉程序,页面使用了什么字符集编码(html中的charset其实是指字符集编码)。但是这张页面到底用了什么字符集编码,是不一定的。所以最好要求页面实际使用的字符集编码和encoding声明的一样。

  • windows操作系统在保存页面时,会使用默认的编码方式ANSI。简体中文使用字符集编码是GBK。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容