java正则表达式使用

简介

对于一些文本操作,正则表达式提供了强有力的辅助,它允许我们通过带有描述性性质的描述语言,得到我们需要的文本数据。

java正则表达式功能类简介

对于java而言,其在java.util.regex包中给我们提供了正则表达式功能,该包结构如下图所示:

java.util.regex

可以看到,regex包下包含一个接口MatchResult,两个类Pattern,Matcher,以及一个异常类PatternSyntaxException
其中:
MatchResult:代表匹配操作的结果,该接口提供了查询方法用来检测匹配器匹配正则表达式的结果。通过MatchResult,可以查看匹配边界,匹配组合以及组边界,但是不能进行修改。

Pattern:正则表达式的编译表现形式。指定为正则表达式的字符串必须首先被编译成此类的实例,然后,可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。

Matcher:执行由Pattern解释的字符串序列操作引擎。Matcher实现了MatchResult

PatternSyntaxException:当正则表达式解析出错时抛出该异常。

通配符简介

java正则表达式的全部通配符介绍可以在官网API中查看,下面主要介绍其中一些比较常用的:

字符类
[abc] 匹配a或者b或者c
[^abc] 除了a,b,c以外的字符都匹配
[a-zA-Z] a-z,A-Z任意一个字符都匹配
[a-d[m-p]] a-d或者m-p中任意一个字符都匹配
[a-z&&[def]] 同时满足a-z和d,e,f中的一个则匹配(并集)
[a-z&&[^bc]] a-z任意一个字符都匹配,除了b和c
ab|cd 或匹配器,匹配 ab 或 cd
预定义字符类
. 任意字符 (与<u>行结束符</u>可能匹配,也可能不匹配)
\d 数字 [0-9]
\D 非数字 [^0-9]
\s 空白字符 [ \t\n\x0B\f\r]
\S 非空白字符 [^\s]
\w 字符类型 [a-zA-Z_0-9]
\W 非字符类型 [^\w]
边界匹配器
^ 行开头
$ 行结尾
\b 单词边界
\B 非单词边界
Greedy 数量词
X? X,一次或一次也没有
X* X,零次或多次
X+ X,一次或多次
X{n} X,恰好n次
X{n,} X,至少n次
X{n,m} X,至少n次,但不超过m次

例子

正则表达式对文本的操作总结起来为:匹配,切割,替换,获取。

  • 匹配
    判断给定字符串是否符合QQ号码格式。
    (QQ号码格式规范:
    1.全部为数字
    2.起码6位数字以上,不超过15位数;
    3.第一个数字不能为0;)
    String str = "23453463456";
    Pattern pattern = Pattern.compile("[1-9]\\d{5,15}");
    Matcher matcher = pattern.matcher(str);
    boolean bMatch = matcher.matches();
    System.out.println("match="+bMatch);
  • 切割
    对给定字符串,按空格进行切割。
    String str="first   second   third  ";
    Pattern pattern = Pattern.compile("\\s+");//或者“ ”+
    String[] splits = pattern.split(str);
    for(int i = 0 ; i < splits.length ; ++i){
        System.out.println("splits["+i+"]="+splits[i]);
    }
  • 替换
    对给定字符串,按叠词进行替换,将叠词数量保留一位。
    String str="abb3dadadfa333aaaaaaaa";
    Pattern pattern = Pattern.compile("(.)\\1+");
    Matcher matcher = pattern.matcher(str);
    String replaceStr = matcher.replaceAll("$1");
    System.out.println("replaceStr="+replaceStr);

注: 此处使用了组概念,用符号()表示一个组,正则表达式"(.)\1+"表达的意思是:任意字符,\1表示引用第一组的结果,也就是(.)的字符,所以这句话的意思就是第一个字符是任意字符,后面一个字符跟前一个一致,有一个或一个以上。
“$1"表示引用第一个组的内容。

  • 获取
    对给定字符串,取出大括号{}内的字符串。
    String str = "users/{user}/repos/{page}/";
    Pattern pattern = Pattern.compile("\\{([a-zA-Z][a-zA-Z0-9_-]*)\\}");
    Matcher matcher = pattern.matcher(str);
    while(matcher.find()){
        String findstr = matcher.group();
        System.out.println("findstr="+findstr);
    }

最后,网上有很多可以直接对正则进行验证的在线工具,大家可以去找找看。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 初衷:看了很多视频、文章,最后却通通忘记了,别人的知识依旧是别人的,自己却什么都没获得。此系列文章旨在加深自己的印...
    DCbryant阅读 9,565评论 0 20
  • 前言 对于正则,著称火星文字,见名知意主要它晦涩难懂,一直以来,看到它总是怕怕的,在平时,也只是简单的用用,其主要...
    itclanCoder阅读 4,243评论 0 2
  • 没想到前几日的文章还会有评论,真是让我受宠若惊。但是原谅我不再一一回复了。 今天和大长腿小姐讲到张爱玲,我几乎已经...
    独木Atree阅读 3,502评论 0 5
  • 有大半年没上过菜市场,新近搬了家,头等大事当然是寻访附近的菜市场。从一个隐蔽的入口进去,没来得及赞叹社区规划的高明...
    微冷微冷阅读 14,455评论 5 11
  • 进了小公司的应届程序员如何翻身进入大公司——知乎上的一个问题,有近 4700 人关注,130 多万次浏览,我的回...
    安晓辉0阅读 8,894评论 10 60

友情链接更多精彩内容