《Java编程的逻辑》笔记28--剖析包装类 (下)/剖析Character

28剖析包装类 (下) 剖析Character.png

Character有很多静态方法,封装了Unicode字符级别的各种操作,是Java文本处理的基础,注意不是char级别,Unicode字符并不等同于char

Unicode基础

Unicode给世界上每个字符分配了一个编号,编号范围从0x000000到0x10FFFF。编号范围在0x0000到0xFFFF之间的字符,为常用字符集,称BMP(Basic Multilingual Plane)字符。编号范围在0x10000到0x10FFFF之间的字符叫做增补字符(supplementary character)。

  • UTF-16
    UTF-16是一种编码方式,或者叫映射方式,它将编号映射为两个或四个字节,对BMP字符,它直接用两个字节表示,对于增补字符,使用四个字节,前两个字节叫高代理项(high surrogate),范围从0xD800到0xDBFF,后两个字节叫低代理项(low surrogate),范围从0xDC00到0xDFFF,UTF-16定义了一个公式,可以将编号与四字节表示进行相互转换。
    Java内部采用UTF-16编码,char表示一个字符,但只能表示BMP中的字符,对于增补字符,需要使用两个char表示,一个表示高代理项,一个表示低代理项

Character静态方法

  • 判断一个int是不是一个有效的代码单元
public static boolean isValidCodePoint(int codePoint) 

小于等于0x10FFFF的为有效,大于的为无效

  • 判断一个int是不是BMP字符:
public static boolean isBmpCodePoint(int codePoint) 

小于等于0xFFFF的为BMP字符,大于的不是

  • 判断一个int是不是增补字符
public static boolean isSupplementaryCodePoint(int codePoint)

0x010000和0X10FFFF之间的为增补字符。

  • 判断char是否是高代理项:
public static boolean isHighSurrogate(char ch)

0xD800到0xDBFF为高代理项。
-判断char是否为低代理项:

public static boolean isLowSurrogate(char ch) 

0xDC00到0xDFFF为低代理项。

  • 判断char是否为代理项:
public static boolean isSurrogate(char ch) 

char为低代理项或高代理项,则返回true。

  • 判断两个字符high和low是否分别为高代理项和低代理项
 public static boolean isSurrogatePair(char high, char low) 
  • 判断一个代码单元由几个char组成:
 public static int charCount(int codePoint) 

增补字符返回2,BMP字符返回1。

code point与char的转换

  • 根据高代理项high和低代理项low生成代码单元
public static int toCodePoint(char high, char low)

这个转换有个公式,这个方法封装了这个公式。

  • 根据代码单元生成char数组,即UTF-16表示
public static char[] toChars(int codePoint) 

如果code point为BMP字符,则返回的char数组长度为1,如果为增补字符,长度为2,char[0]为高代理项,char[1]为低代理项

  • 将代码单元转换为char数组
public static int toChars(int codePoint, char[] dst, int dstIndex) 
  • 对增补字符code point,生成高代理项和低代理项
public static char lowSurrogate(int codePoint) public static char highSurrogate(int codePoint) 

按code point处理char数组或序列

  • CharSequence接口
public interface CharSequence {
    int length();
    char charAt(int index);
    CharSequence subSequence(int start, int end);
    public String toString();
}

它与一个char数组是类似的,有length方法,有charAt方法根据索引获取字符,String类就实现了该接口
计算char索引等......

字符属性

除了分配编号之外,还分配了一些属性,Character类封装了对Unicode字符属性的检查和操作

public static int getType(int codePoint)   
public static int getType(char ch)

Unicode给每个字符分配了一个类型,这个类型是非常重要的,很多其他检查和操作都是基于这个类型的
字符对应


字符对应.png

字符判断,转换的函数......
字符反转等

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,533评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,055评论 3 414
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,365评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,561评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,346评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,889评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,978评论 3 439
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,118评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,637评论 1 333
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,558评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,739评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,246评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,980评论 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,362评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,619评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,347评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,702评论 2 370

推荐阅读更多精彩内容