上一篇写了正则表达式的基础内容(正则表达式基础),还有一些更有意思的在这里补充一下,姑且当作进阶篇。
捕获分组与反向引用
- 是什么
捕获分组,是把一个规则所匹配到的结果,缓存到一个分组里面(即保存在内存中,这个分组可以理解成数组的一个元素,就是一个局部变量、临时变量差不多的意思),那么我们保存了这个结果之后,接下来干嘛呢?难道就为了浪费内存吗,当然不可能,是为了后向引用啊。前面所捕获到的,会放进一个个默认或者指定名字的组里(变量里),后面就可以引用它来作为匹配规则。 - 语法
默认的分组就是(pattern)\1
,括号就是括起来一个分组,这个分组名字默认是1,使用的时候转义成\1,当然,如果有好几个分组,那就是12345...这样分配名字了。
指定分组名字的语法是(?<myname>pattern)\k<myname>
。
还有一种这样的(?:pattern)
,这个形式的,它不捕获文本,不分配组号,仅仅匹配,看有没有。 - 例子
比如一个正则表达式([123])\1
,用它去匹配一个25124122631,那么结果就是“22”。因为这个正则,就等价于11|22|33
这个表达式,在分组里面匹配123中任何一个,后面再匹配一次前面的结果,就是匹配连续的1或2或3。
好,捕获分组差不多就这样。
零宽断言
这个术语我找了半天才找到,简直不能理解为什么叫这个名字,我记的名字是‘排斥匹配’,差不多就是匹配某某字符串之前的,某某字符串之后的。
-
语法
- (?=exp) : 匹配exp前面的内容(不包含exp)
- (?<=exp):匹配exp后面的内容(不包含exp)
例子
原始字符串“https://itunes.apple.com/”
(1).*(?=com)
==>https://itunes.apple.
(2)(?<=https://).*
==>/itunes.apple.com/
负向零款断言
它用来查找不是某个字符或不在某个字符类里面的方法
- 语法
- (?!=exp): 匹配前缀不是exp的内容
- (?<!exp): 匹配后缀不是exp的内容
- 例子
原始字符串“da15D23”
(1)(?<!a)\d{2}
==>23 匹配前面不是a的两个数字
(2)\d{2}(?!D)
==>15 匹配后面不是D的两个数字
基本的使用差不多就这些,复杂起来也不过是这些组合在一起。
The end.