Unicode编码与char类型——————小白福利向

一、char类型

    Java的char型是非常独特的,占用两个字节,因为Java中char型采用了Unicode编码。

    char类型原本用于表示单个字符。

    char类型的自变量值要用单引号括起来。

    例如:'A' 是编码值为65所对应的字符常量。它与 "A" 不同,"A" 是包含一个字符A的字符串。

    char类型的值可以表示十六进制值,其范围为:\u0000~\uffff.

    其中一些特定的char类型值,例如:\u03C0表示希腊字母 π。

    此外,还有一些特殊字符的转义序列:

    转义序列                    Unicode值                    名称

    \b                               \u0008                      退格

    \t                                \u0009                      制表

    \n                               \u000a                      换行

    \r                               \u000d                      回车

    \"                               \u0022                      双引号

    \'                                \u0027                      单引号

    \\                                \u005c                      反斜杠

二、Unicode编码

    在Unicode出现之前,已经有许多种不同的标准。

    那么问题就由此而来了,

    第一个,对于任意给定的代码值,在不同的编码方式下很可能对应着不同的字母编码;

    第二个就是一些采用大字符集的语言其编码长度有可能不同。

    而设计Unicode编码目的就是要解决这些问题。其作用就是利用Unicode编码来对世界上各种语言的所有字符进行编码。

    在此之前,首先介绍一个名词:

    码点:指与一个编码表中的某个字符对应的代码值。

    随着时间的流逝,发现当初规定的Unicode编码长度不够用了。

    在Unicode编码标准中,码点采用十六 进制书写,并加上前缀U+ 例如:U+0041就是A的码点。

    Unicode的码点可以分成17个代码级别。第一个级别称为基本的多语言级别,码点从U+0000到U+FFFF,其余   16个级别码点从U+10000到U+10FFFF。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容