重学正则表达式（二）

前一节我们学习了组成正则表达式的元字符，这节我们来看一下正则表达式的匹配模式。什么是正则表达式的匹配模式，废话不多说，上代码：

package com.info.common.regex;

import lombok.extern.slf4j.Slf4j;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

@Slf4j
public class RegexTest {

    public static void main(String[] args) {
        String str = "aaabb";
        String regex = "(a+)";
        pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()){
            log.info(matcher.group());
        }
}

运行上面的代码，我们可以看到结果是 aaa，再看下面的代码

        str = "aaabb";
        regex = "(a+?)";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        List<String> result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));

下面这个案例我们得到的结果是 ["a","a","a"]，至于这里的表达式为什么是 (a+) 而不是 a+ ，我也没完全弄明白，只能说是语言的特性吧，在java里，匹配行的开始和结束我们也需要用括号把 ^ $ 括起来，类似 (^) ($) 这样。我们看到，第二个表达式只是在第一个表达式的+后面添加了一个?,两次匹配出来的结果就不一样了，这是为什么呢？这就引入了我们今天要讲的话题，正则表达式的匹配模式，贪婪、非贪婪与独占模式。

贪婪匹配
在正则中，表示次数的量词默认是贪婪的，在贪婪模式下，
会尝试尽可能最大长度去匹配。
以上面的例子为例，a+ 会尝试尽量匹配更多的 a，直到第一个字母 b不满足要求为止，匹配上三个 a。贪婪模式的特点就是尽可能进行最大长度匹配。所以要不要使用贪婪模式是根据需求场景来定的。

非贪婪匹配
与之对应的就是非贪婪匹配，那么如何将贪婪模式变成非贪婪模式呢？我们可以在量词后面加上英文的问号 ? ，这时正则变为了 (a+?)，匹配的结果变成了 ["a","a","a"] ，匹配的时候从一个a开始，一个字母 a 满足 (a+) ，于是就匹配到第一个子串，继续向后一直到字母 b ，不满足 (a+)，匹配结束，因此得到的结果就是 ["a","a","a"]。
上代码：

        str = "\"the little dog\" is a toy, \"it looks like a cat.\"";
        regex = "\".+\"";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));

运行上面的案例，我们得到的结果是 ["the little dog" is a toy, it looks like a cat."]，这可能并不是我们想要的结果，我们只是想要 “” 里面的内容，但是如果我们把正则改为非贪婪匹配 .+? ，就可以得到我们想要的结果 ["the little dog","it looks like a cat."]。顺带提一句，有的同学可能会好奇上面的代码里为什么会有 \" 这样的字符，这个是因为在java语法里，引号里面使用引号是需要转义的， \" 表示的就是 " 本身，大家不必太在意。

独占匹配
不管是贪婪模式，还是非贪婪模式，都需要发生回溯才能完成相应的功能。但是在一些场景下，我们不需要回溯，匹配不上返回失败就好了，因此正则中还有另外一种模式，独占模式，它类似贪婪匹配，但匹配过程不会发生回溯，因此在一些场合下性能会更好。
例如下面的正则：String regex = ab{1,3}z; String str = abbac，在匹配时，b{1,3}会尽可能长地去匹配，当匹配完 abb 后，由于 b 要尽可能匹配最长，即三个，但字符串中后面是个 c 就会导致匹配不上，这时候正则就会向前回溯，回退出当前字符 c，接着用正则中的 c 去匹配。
独占模式和贪婪模式很像，独占模式会尽可能多地去匹配，如果匹配失败就结束，不会进行回溯，这样的话就比较节省时间。具体的方法就是在量词后面加上加号 + 。
如果你用 ab{1,3}+bc 去匹配 abbbc 字符串，b{1,3}+会把前面两个 b 都用掉，并且不会回溯，这样字符串中内容只剩下 c了，导致正则中加号后面的 c 匹配不到符合要求的内容，匹配失败。如果是贪婪模式 ab{1,3}bc 或非贪婪模式 ab{1,3}?bc 都可以匹配上。

        str = "abbbc";
        regex = "(ab{1,3}?bc)";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));

运行上面的代码，我们发现匹配的结果是空。
正则虽然强大，但是正则也不可能乱用，参考一个正则表达式引发的血案，可以对今天的内容有更深入的理解。好了，今天的内容就到这里了，我们下节见，由于本人对正则的认知有限，如文中有表达不到位或者错误的地方，欢迎大家批评指正，感谢。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356

重学正则表达式（二）

推荐阅读更多精彩内容