字符集
- 字符的集合,没有编号
编码字符集(charset)
- 为字符集的每一个字符指定一个编号,即代码点(code point) 。
字符集编码(encoding)
字符的code point(码点)不一定是该字符在电脑中存储中使用的值。字符在电脑中存储的值由字符集编码决定。
code unit(代码单元或码元)仅仅针对字符集编码,是字符集编码中对一个字符编码后的最小存储单元。在UTF-8中是一个字节,因为UTF-8在将字符编码为1个,2个,3个,或者4个。在UTF-16中,代码单元变成了两个字节,因为在UTF-16中字符可以被编码为2个或者4个字节(也就是java里面的1个或者2个char)。
具体的编码字符集和字符集编码
编码字符集 | 字符集编码 |
---|---|
Unicode | UTF-8,UTF-16,UTF-32 |
GB2312 | GB2312 |
GBK | GBK |
ASCII (ISO-646) | ASCII(ISO-646) |
扩展的ASCII | 扩展的ASCII(ISO-8859-*),例如Latin-1(ISO-8859-1) |
其他
创建了一张xml页面,声明encoding为UTF-8,和html中的charset一样,只是告诉程序,页面使用了什么字符集编码(html中的charset其实是指字符集编码)。但是这张页面到底用了什么字符集编码,是不一定的。所以最好要求页面实际使用的字符集编码和encoding声明的一样。
windows操作系统在保存页面时,会使用默认的编码方式ANSI。简体中文使用字符集编码是GBK。