- UTF-8编码:针对unicode的可变长度字符编码,也是一种前缀码。且其编码中的第一个字节仍与ACSII兼容,这是得原来处理ASCII字符的软件无须或者只须做少部分修改,即可继续使用。
- 128个US-ACSLL编码只需要一个字节编码
- 带有附加符号的需要两个字节编码
- 其他多文种平面使用三个字节码
- 其他使用极少的unicode辅助平面的字符使用四字节编码
- Mysql中的UTF-8、UTF8mb3、UTF8mb4
- mb:most bytes
- code point:代码点,是一个数字,用来表示字符集中的一个字符
- code space:代码空间,就是一个编码集中,code point的范围
- character encoding schema:字符编码方案
- code uint:编码单元,就是编码方案中固定查那个度的最小编码单元,如utf-8编码单元是1字节,utf16是2bytes