正则表达式(四):Java regex

以下示例所使用 Java 版本为: 1.8.0

有了上一章 python 中的 re 模块的铺垫(正则表达式(三):python re模块),对于 Java 中正则的使用理解上会简单许多。

Java 作为一种被广泛使用的编程语言,从 jdk-1.4 开始,标准库提供了 java.util.regex 包来支持正则表达式的使用。正则在 Java 中的使用和 python 中略有区别,主要是使用方式上稍有差异。名称上的不同足可见一斑,python 中两个核心对象是 Pattern 和 Match ,而 Java 中则是 Pattern 和 Matcher

核心对象作用

1. re 模块

re 模块中 Pattern 对象作为匹配规则,代表了一种文本模式,Pattern 对象基于该模式提供了多种对指定内容的处理操作,如:match、split、sub等; Match 对象作为模式和指定内容的分组处理结果,提供了多种对数据信息的提取方式,如:group、groups、span等。根据 re 模块中两种对象的使用特点,可以有如下归纳。

1. Pattern 对象作用主要是:提供模式对指定内容的多种处理方式,可以返回 Match 对象进一步提取处理结果或者直接返回处理结果;

2. Match 对象作为模式的分组处理后对象,其体现作用主要是:对处理结果信息的提取。

2. regex 包

Java 标准库中 regex 包提供的正则功能同样依赖于两个核心对象,名称上与 re 模块核心对象相似,使用方式上也很相似。regex 包中 Pattern 对象作为一种匹配规则,一种文本模式,提供了直接返回结果的函数,如:matches、split等,这些函数直接返回模式处理后的结果。但是涉及分组的操作,则全部由 Matcher 对象提供,Pattern 对象提供有 match 函数来构造 Matcher 对象。Matcher 对象则提供对分组的处理和结果提取函数,如:find、group、start、end等。除此之外,Matcher 对象还提供有 reset、replaceAll、lookingAt等函数,比较 regex 包和 re 模块对正则处理的使用方式,可以发现一个现象:

相同点:两者的 Pattern 对象都提供了正则模式对指定内容的直接处理,对分组结果的提取操作同样都放在 Match | Matcher 对象中完成。

不同点:re 模块中 Match 对象提供的功能更聚焦于对分组结果的操作,对于split、sub等直接返回结果的、非分组相关的函数放在了 Pattern 对象中提供;而 regex 包中 Pattern 对象和 Matcher 对象都提供有非分组相关的函数,如 Pattern 对象中的 split 函数,Matcher 对象中的 replaceAll 函数。

下面列出 Pattern 对象中常用函数:

函数名 作用
compile(String regex) 返回根据指定正则表达式生成 Pattern 模式对象
compile(String regex, int flags) 返回根据指定正则表达式和匹配标志生成的 Pattern 模式对象
matches(String regex, CharSequence input)) 判断正则表达式是否匹配指定内容并返回
quote(String s) 转换指定内容为字面值并返回
matcher(CharSequence input) 返回 Pattern 对象和指定内容构成的 Matcher 对象
split(CharSequence input) 对指定内容进行分割,返回分割得到的结果列表
split(CharSequence input, int limit) 对指定内容按照指定次数进行分割,返回分割得到的结果列表

Pattern 的私有构造函数

在开始介绍具体的使用之前,首先引入一点,在 Pattern 类中使用了私有的构造函数,提供了 compile 静态函数完成对象的构造。声明私有构造函数的场景很多,原因主要是在构造对象之前或者之后作一些额外的操作:

1. 实用程序类,不需要实例化,如java.lang.Math类
2. 构造函数可能会失败,不能返回 null
3. 控制实例化对象个数,如单例的使用
4. 静态函数更能阐明实例化过程的意义,或后续会添加其他操作到静态函数中

在 Pattern 类的场景中,其声明私有构造函数,使用静态函数完成实例化的原因偏向于第四种。Pattern 的构造需要一些复杂的操作,通过 new Pattern( .. ) 的形式构造一个新模式显得意义不大,因为正则表达式是通过编译后成为一种模式使用的,所以使用静态函数 compile 来解释这个过程。
--- What is the use of making constructor private in a class?
--- Java Pattern class doesn't have a public constructor, why?


  • compile、matches、quote 函数

这三类为 Pattern 类提供的静态函数,因为 Pattern 类构造函数是私有的,所以提供了 compile 函数来生成 Pattern 对象;matches 函数直接返回正则表达式与指定内容是否匹配的结果,其内部实现流程仍然是先调用 compile 函数构造 Pattern 对象,然后调用 match 函数构造 Matcher 对象,最后使用 Matcher 对象的 matches 函数返回是否匹配结果;quote 函数则返回正则表达式的字面值内容。

示例:

import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg1 = "[\\w]+";
        String str1 = "1a2b3c";

        Pattern pattern = Pattern.compile(reg1);
        System.out.println("reg1 pattern is "+pattern.toString());

        System.out.println("str1 matches is "+Pattern.matches(reg1,str1));

        String reg2 = Pattern.quote(reg1);
        String str2 = reg1;
        System.out.println("str2 matches is "+Pattern.matches(reg2,str2));
    }
}
运行结果:
reg1 pattern is [\w]+
str1 matches is true
str2 matches is true

由以上示例可知,quote 函数返回的正则表达式的字面值,也就是其普通意义字符,所以可以作为普通字符匹配其本身字符。

  • matcher 函数

Pattern 类中 matcher 函数的作用就是构造一个 Matcher 对象并返回

示例:

import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg1 = "[\\w]+";

        Pattern pattern1 = Pattern.compile(reg1);
        Pattern pattern2 = Pattern.compile(reg1);
        
        System.out.println(pattern1 == pattern2);
    }
}
运行结果:
false

从示例中可以看出,相对于 python 中 re 模块的缓存实现,Java 的 regex 包中关于正则模式的构建并没有实现缓存的功能,在后续的 compile 静态函数可能会增加该实现。

  • split 函数

Pattern 类中 split 函数提供对指定内容进行分割的功能,返回分割得到的字符串数组。函数中包含一个可选的 limit 参数,用于指定分割后数组元素个数的上限,默认值 0 表示全分割。

示例:

import java.util.Arrays;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "\\d";
        String str = "1a2b3c";

        Pattern pattern1 = Pattern.compile(reg);

        String[] arr1 = pattern1.split(str);
        String[] arr2 = pattern1.split(str,2);

        System.out.println("arr1 = "+Arrays.toString(arr1));
        System.out.println("arr2 = "+Arrays.toString(arr2));
    }
}
运行结果:
arr1 = [, a, b, c]
arr2 = [, a2b3c]

下面列出 Matcher 对象中常用函数:

函数名 作用
matches() 判断正则表达式是否匹配指定内容并返回
find() 从起点或上一个匹配位置后开始查找是否存在下一个匹配内容并返回
find(int start) 重新从指定位置或上一个匹配位置后开始查找是否存在下一个匹配内容并返回
group() 返回匹配内容
group(int group) 返回指定序号分组匹配内容
group(String name) 返回指定名称分组匹配内容
lookingAt() 重新判断正则是否与给定内容的起始部分匹配并返回
replaceAll(String replacement) 以指定内容替换全部匹配内容并返回替换后结果
replaceFirst(String replacement) 以指定内容替换第一项匹配内容并返回替换后结果
start() 返回匹配内容的首下标
start(int group) 返回指定序号分组匹配内容的首下标
start(String name) 返回指定名称分组匹配内容的首下标
end() 返回匹配内容的尾下标
end(int group) 返回指定序号分组匹配内容的尾下标
end(String name) 返回指定名称分组匹配内容的尾下标
  • matches 函数

Matcher 对象提供的 matches 函数作用同 Pattern 的静态函数 matches 一样,判断正则是否完全匹配内容,并返回判断结果。

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "[\\w]+";
        String str1 = "5b3ac";
        String str2 = "5b3ac=";

        Pattern pattern = Pattern.compile(reg);
        Matcher matcher1 = pattern.matcher(str1);
        Matcher matcher2 = pattern.matcher(str2);

        System.out.println("match1 matches = "+matcher1.matches());
        System.out.println("match2 matches = "+matcher2.matches());
    }
}
运行结果:
match1 matches = true
match2 matches = false
  • find 函数

find 函数提供有一个指定开始位置的参数,默认从起始位置或上一个匹配位置后开始查找是否存在下一个匹配内容,如果通过参数指定起始位置,则重新从该指定位置开始查找是否存在下一个匹配内容。

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "\\d";
        String str = "a1b2c3";

        Pattern pattern = Pattern.compile(reg);
        Matcher matcher = pattern.matcher(str);

        System.out.println("round one----");
        System.out.println("first found = "+matcher.find());
        System.out.println("second found = "+matcher.find());
        System.out.println("third found = "+matcher.find());
        System.out.println("fourth found = "+matcher.find());

        System.out.println("\nround two----");
        System.out.println("first found = "+matcher.find(2));  // "b" position
        System.out.println("second found = "+matcher.find());
        System.out.println("third found = "+matcher.find());
        System.out.println("fourth found = "+matcher.find());
    }
}
运行结果:
round one----
first found = true
second found = true
third found = true
fourth found = false

round two----
first found = true
second found = true
third found = false
fourth found = false

由示例可知,find 函数会根据匹配规则,在给定的内容中从前向后进行匹配查询。当指定 find 函数的起始位置后,会重新从指定的位置开始进行查询。

  • group 函数

group 函数有三种形式:
1. 当无参数时返回整个正则表达式匹配内容
2. 当指定分组序号时,返回指定序号分组匹配的内容
3. 当指定分组的名称时,返回指定名称分组匹配的内容

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "\\d(\\d)(?<id>\\d)";
        String str = "123abc456";

        Pattern pattern = Pattern.compile(reg);
        Matcher matcher = pattern.matcher(str);

        System.out.println("matcher matches = "+matcher.find());
        System.out.println("no parameter = "+matcher.group());
        System.out.println("number parameter = "+matcher.group(1));
        System.out.println("name parameter = "+matcher.group("id"));
    }
}
运行结果:
matcher matches = true
no parameter = 123
number parameter = 2
name parameter = 3
  • lookingAt 函数

lookingAt 函数有两个功能:
1. 判断正则表达式是否匹配给定内容的起始部分
2. 如果正则匹配内容的起始部分,则重新从内容的起始部分开始查询匹配内容,相当于执行了 find(0) 函数

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "\\d";
        Pattern pattern = Pattern.compile(reg);

        System.out.println("round one----");
        String str = "1a2b";
        Matcher matcher = pattern.matcher(str);
        System.out.println("first found = "+matcher.find()); //true
        System.out.println("second found = "+matcher.find());//true
        System.out.println("third found = "+matcher.find()); //false
        System.out.println("lookingAt found = "+matcher.lookingAt()); // reg 匹配 str 起始部分  //true
        System.out.println("second found = "+matcher.find());//true
        System.out.println("third found = "+matcher.find());//false

        System.out.println("\nround two----");
        String str2 = "a1b2";
        Matcher matcher2 = pattern.matcher(str2);
        System.out.println("first found = "+matcher2.find());//true
        System.out.println("second found = "+matcher2.find());//true
        System.out.println("third found = "+matcher2.find());//false
        System.out.println("lookingAt found = "+matcher2.lookingAt()); // reg 不匹配 str 起始部分  //false
        System.out.println("second found = "+matcher2.find());//false
        System.out.println("third found = "+matcher2.find());//false
    }
}
运行结果:
round one----
first found = true
second found = true
third found = false
lookingAt found = true
second found = true
third found = false

round two----
first found = true
second found = true
third found = false
lookingAt found = false
second found = false
third found = false

由示例可知,lookingAt 函数类似于 String 对象的 "startsWith" 函数,判断正则是否匹配给定内容的起始部分,除此之外,若匹配起始部分成功,则相当于执行了一次 find(0) 函数,设置查询分组的起始位置为第一个匹配结果后。

  • replaceAll、replaceFirst 函数

这两个实现 replace 功能的函数使用很相似,replaceAll 替换内容中所有符合正则模式的部分,replaceFirst 则替换内容中第一个符合正则模式的部分。

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "(\\d)\\d";
        Pattern pattern = Pattern.compile(reg);
        
        String str = "a12b34";
        Matcher matcher = pattern.matcher(str);
        
        System.out.println("replaceAll = "+matcher.replaceAll("+"));
        System.out.println("replaceFirst = "+matcher.replaceFirst("+"));
    }
}
运行结果:
replaceAll = a+b+
replaceFirst = a+b34

该示例展示了 Matcher 对象提供的与分组无关的替换指定内容功能。

  • start、end 函数

这两个函数都是与分组相关的函数,start 函数返回指定分组或整个正则表达式匹配部分的首下标,end 函数返回指定分组或整个正则表达式匹配部分的尾下标(左闭右开)。

示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "(?<number1>\\d)(?<number2>\\d)\\d";
        Pattern pattern = Pattern.compile(reg);

        String str = "a123b456";
        Matcher matcher = pattern.matcher(str);

        if(matcher.find())
        {
            System.out.println("regex matched = "+matcher.group());
            System.out.println("number1 matched(using No) = "+matcher.group(1));
            System.out.println("number2 matched(using name) = "+matcher.group("number2"));

            System.out.println("\nregex start position = "+matcher.start());
            System.out.println("number1 start(using No) position = "+matcher.start(1));
            System.out.println("number2 start(using name) position = "+matcher.start("number2"));

            System.out.println("\nregex end position = "+matcher.end());
            System.out.println("number1 end(using No) position = "+matcher.end(1));
            System.out.println("number2 end(using name) position = "+matcher.end("number2"));
        }
    }
}
运行结果:
regex matched = 123
number1 matched(using No) = 1
number2 matched(using name) = 2

regex start position = 1
number1 start(using No) position = 1
number2 start(using name) position = 2

regex end position = 4
number1 end(using No) position = 2
number2 end(using name) position = 3

由示例可知,group、start、end 函数都提供有三种形式的函数,来获取分组匹配的内容信息。无参时面向的是整个正则表达式匹配结果;参数为分组序号时,面向的是指定序号分组匹配的部分;参数为分组名称时,面向的是指定名称分组匹配的部分。

针对 group、start、end 这些获取分组匹配信息的函数,在这里介绍可能出现的三种异常:

IllegalStateException:获取分组匹配的内容相关信息之前,没有对正则模式执行匹配操作,或匹配操作失败了,则提示状态异常;
IndexOutOfBoundsException:不存在指定分组序号匹配的结果时,提示序号越界异常;
IllegalArgumentException:不存在指定分组名称匹配的结果时,提示参数异常。
示例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class t2
{
    public static void main(String[] args)
    {
        String reg = "(?<number1>\\d)(?<number2>\\d)\\d";
        Pattern pattern = Pattern.compile(reg);

        String str = "a123b456";
        Matcher matcher = pattern.matcher(str);

        System.out.println("IllegalStateException example = ");
        try
        {
            matcher.group();
        }
        catch (IllegalStateException e)
        {
            System.out.println(e.toString());
        }

        System.out.println("\nIndexOutOfBoundsException example = ");
        try
        {
            matcher.find();
            matcher.group(-1);
        }
        catch (IndexOutOfBoundsException e)
        {
            System.out.println(e.toString());
        }

        System.out.println("\nIllegalArgumentException example = ");
        try
        {
            matcher.group("number3");  //上一步已经执行过matcher.find()
        }
        catch (IllegalArgumentException e)
        {
            System.out.println(e.toString());
        }
    }
}
运行结果:
IllegalStateException example = 
java.lang.IllegalStateException: No match found

IndexOutOfBoundsException example = 
java.lang.IndexOutOfBoundsException: No group -1

IllegalArgumentException example = 
java.lang.IllegalArgumentException: No group with name <number3>

由以上示例可以大致了解 Java 标准库 regex 包中对正则表达式的常用使用方式,与 re 模块中正则的使用方式略有差异,但区别不大。熟悉任何一种语言中的正则使用方式,对于别的语言中正则的应用就会变得很容易理解,因为正则本身体现的是一种文本处理规则,核心价值是其强大的模式匹配能力,并非各种花式操作,不同的语言只是对其提供不同的应用平台,作为一种“工具”,其具备通用性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352