Unicode编码与char类型——————小白福利向

一、char类型

Java的char型是非常独特的，占用两个字节，因为Java中char型采用了Unicode编码。

char类型原本用于表示单个字符。

char类型的自变量值要用单引号括起来。

例如：'A' 是编码值为65所对应的字符常量。它与 "A" 不同，"A" 是包含一个字符A的字符串。

char类型的值可以表示十六进制值，其范围为：\u0000~\uffff.

其中一些特定的char类型值，例如：\u03C0表示希腊字母 π。

此外，还有一些特殊字符的转义序列：

转义序列 Unicode值名称

\b \u0008 退格

\t \u0009 制表

\n \u000a 换行

\r \u000d 回车

\" \u0022 双引号

\' \u0027 单引号

\\ \u005c 反斜杠

在Unicode出现之前，已经有许多种不同的标准。

那么问题就由此而来了，

第一个，对于任意给定的代码值，在不同的编码方式下很可能对应着不同的字母编码；

第二个就是一些采用大字符集的语言其编码长度有可能不同。

而设计Unicode编码目的就是要解决这些问题。其作用就是利用Unicode编码来对世界上各种语言的所有字符进行编码。

在此之前，首先介绍一个名词：

码点：指与一个编码表中的某个字符对应的代码值。

随着时间的流逝，发现当初规定的Unicode编码长度不够用了。

在Unicode编码标准中，码点采用十六进制书写，并加上前缀U+ 例如：U+0041就是A的码点。

Unicode的码点可以分成17个代码级别。第一个级别称为基本的多语言级别，码点从U+0000到U+FFFF，其余 16个级别码点从U+10000到U+10FFFF。