java字符编码

  1. UTF-8编码:针对unicode的可变长度字符编码,也是一种前缀码。且其编码中的第一个字节仍与ACSII兼容,这是得原来处理ASCII字符的软件无须或者只须做少部分修改,即可继续使用。
  • 128个US-ACSLL编码只需要一个字节编码
  • 带有附加符号的需要两个字节编码
  • 其他多文种平面使用三个字节码
  • 其他使用极少的unicode辅助平面的字符使用四字节编码
  1. Mysql中的UTF-8、UTF8mb3、UTF8mb4
  • mb:most bytes
  • code point:代码点,是一个数字,用来表示字符集中的一个字符
  • code space:代码空间,就是一个编码集中,code point的范围
  • character encoding schema:字符编码方案
  • code uint:编码单元,就是编码方案中固定查那个度的最小编码单元,如utf-8编码单元是1字节,utf16是2bytes
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容