正则表达式详解

转自:https://blog.csdn.net/zengxiantao1994/article/details/77816972
正则表达式是一种特殊的字符串模式,用于匹配一组字符串,就好比用模具做产品,而正则就是这个模具,定义一种规则去匹配符合规则的字符。
首先,从最简单的匹配开始,假设你要搜索一个包含字符”cat”的字符串,搜索用的正则表达式就是”cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”等都可以匹配。
正则表达式的基本符号
1.1句点符号
假设你要找出三个字母的单词,并且这些单词必须以字母”t”开头,以字母”n”结束。则可以使用一个通配符——句点符号”.”。这样,完整的表达式”t.n”,它可以匹配”tan”、”ten”、”tin”,还可以匹配”t。n”、”t%n”等。句点符号”.”:能匹配除"\n"之外的任何单个字符。要匹配包括'\n'在内的任何字符,请使用像'[.\n]'的模式。
1.2方括号
为了解决句点符号匹配范围过于广泛这一问题,可以使用方括号(”[]”),里面指定可以匹配的单个字符,此时只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“ten”、“tin”和“ton”。但“toon”不匹配。
1.3”或”符号
“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组。例如,'z|food'能匹配 "z" 或"food"。'(z|f)ood' 则匹配 "zood" 或"food"。
1.4表示匹配次数的符号
这些符号用来确定紧靠该符号左边的符号出现的次数:

符号 次数
* 0次或者多次
+ 1次或者多次
0次或者1次
{n} 恰好n次
{n, m} 从n次到m次

例如:我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式图所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。

图1
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号。
图2
另外一个例子:美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。
图3
1.5开始与结束符号
^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。
$会匹配行或字符串的结尾。例如:”^this .+ regex”,只能匹配以”this”开头,以及以”regex”结尾的字符串,空格也不能包括。同时^符号称为“否”符号。如果用在方括号内,^表示不想要匹配的字符。例如,匹配除以字母”X”开头的所有单词:”[^X][a-z]+”。
1.6圆括号和空白符号
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式如下:
图4
“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,只需在月份周围加上一个圆括号创建一个组,然后提取出它的值(例如可以使用Java Matcher匹配器类来操作)。
图5
1.7快捷符号
为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。

符号 等价的正则表达式
\d [0-9]
\D [^0-9]
\w [A-Z0-9]
\W [^A-Z0-9]
\s [\t\n\r\f]
\S [^\t\n\r\f]

例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方都可以使用“\d”。

图6
1.8懒惰限定符
前面说过了表示次数的符号,其实还可以在每个符号后面都再加一个”?”,变成懒惰限定符,即尽可能少的重复。
"?" :重复任意次,但尽可能少重复。 如 "acbacb" 正则 "a.?b"只会取到第一个"acb" 原本可以全部取到但加了限定符后,只会匹配尽可能少的字符,而"acbacb"最少字符的结果就是"acb"。
"+?":重复1次或更多次,但尽可能少重复,与上面一样,只是至少要重复1次。
"??":重复0次或1次,但尽可能少重复。如"aaacb"正则"a.??b"只会取到最后的三个字符"acb"。
"{n,m}?":重复n到m次,但尽可能少重复。如 "aaaaaaaa" 正则 "a{0, m}"因为最少是0次所以取到结果为空。
"{n,}?":重复n次以上,但尽可能少重复。如 "aaaaaaa" 正则 "a{1,}" 最少是1次所以取到结果为 "a"。
1.9其他符号
"\b" :不会消耗任何字符只匹配一个位置,常用于匹配单词边界。如:想从字符串中"This is Regex"匹配单独的单词 "is" 正则就要写成 "\bis\b"。 \b不会匹配is两边的字符,但它会识别is两边是否为单词的边界。
"\w":匹配字母,数字,下划线。例如要匹配"a2345BCD__TTz"。正则:"\w+" 。
\:反斜线字符;
\0n:八进制值的字符0n (0 <= n<= 7);
\0nn:八进制值的字符0nn (0 <= n<= 7) ;
\0mnn:八进制值的字符0mnn 0mnn (0 <= m <= 3, 0 <= n <= 7);
\xhh:十六进制值的字符0xhh;
\uhhhh:十六进制值的字符0xhhhh。
\t:制表符('\u0009');\n:换行符('\u000A');\r:回车符('\u000D');\f:换页符('\u000C');\a:响铃符('\u0007');\e:转义符('\u001B');\cx T:对应于x的控制字符x。
字符类 :[abc]:a, b, or c (简单类) ;[^abc]:除了a、b或c之外的任意字符(求反);[a-zA-Z]:a到z或A到Z,包含(范围);[a-z-[bc]]:a到z,除了b和c;[a-z-[m-p]]:a到z,除了m到 p;[a-z-[^def]]:d, e, 或 f。
捕获分组
先了解在正则中捕获分组的概念,其实就是一个括号内的内容如 "(\d)\d" 而"(\d)" 这就是一个捕获分组,可以对捕获分组进行后向引用 (如果后而有相同的内容则可以直接引用前面定义的捕获组,以简化表达式) 如(\d)\d\1 这里的"\1"就是对"(\d)"的后向引用。
"(exp)":匹配exp,并捕获文本到自动命名的组里。
"(?<name>exp)":匹配exp,并捕获文本到名称为name的组里。
"(?:exp)":匹配exp,不捕获匹配的文本,也不给此分组分配组号。
以下为零宽断言:
"(?=exp)":匹配exp前面的位置。如 "How areyou doing" 正则"(?<txt>.+(?=ing))" 这里取ing前所有的字符,并定义了一个捕获分组名字为"txt" 而"txt"这个组里的值为 "How are you do"。
"(?<=exp)":匹配exp后面的位置。如 "How areyou doing" 正则"(?<txt>(?<=How).+)" 这里取"How"之后所有的字符,并定义了一个捕获分组名字为"txt" 而"txt"这个组里的值为" are you doing"。
"(?!exp)":匹配后面跟的不是exp的位置。如"123abc" 正则 "\d{3}(?!\d)" 匹配3位数字后非数字的结果。
"(?<!exp)":匹配前面不是exp的位置。如 "abc123" 正则 "(?<![0-9])123" 匹配"123"前面是非数字的结果也可写成"(?!<\d)123"。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容