作为开始,我们看看下面的正则:
var str = 'a "witch" and her "broom" is one';
str.match( /".*"/g);
我们本来预想上面会匹配得到"witch"
和"broom"
两个字符串,运行上面的例子,却发现结果只匹配到"witch" and her "broom"
一个字符串。
之所以出现这个结局,是因为正则的贪婪模式在起作用。
查找算法
首先我们假设自己是正则引擎,来模拟搜索实现的过程。 正则引擎先从字符串的第0位开始搜索。 1. 第一个查找字符是"
,正则引擎在第三个位置匹配到了它:
0_1460721020605_upload-3c9fac96-bffc-45bb-b0b9-8be07016ff6c
之后,引擎尝试匹配正则的剩余部分,第二个字符是.
,它代表任意字符。隐藏匹配到了w
:
0_1460721035679_upload-f038648f-10e0-4b64-bed8-3f9e1e7adfdc
.
代表任意字符重复一次到多次,因此正则引擎匹配到所有字符
0_1460721057627_upload-9226c9dd-43a0-45e4-b690-815e897cad52
当文本结束后,点的匹配停止了,但仍然有剩余的的正则需要匹配,即:"
因此,正则引擎开始倒过来回溯,换句话说,就是一个字符一个字符缩减匹配。
0_1460721071941_upload-33567623-d5db-4db5-84c7-7816fd5ca549
当匹配缩减后,它开始尝试匹配剩余的正则,但"
没有匹配上字符e
。
因此正则继续缩减.
所重复的字符,再继续尝试。
0_1460721078999_upload-23f89d8e-22e1-4ae2-918c-8b3c3d5be1aa
引号"
没用匹配上n
,又失败了~~, 继续…
正则引擎继续回溯,一次一次缩减.
重复的字符个数,直到剩余的正则都匹配上:
0_1460721088411_upload-dee5f26a-bc6f-4e8a-a647-129f3ec76fc6
现在"
终于匹配上了。 如果正则是global
的,正则引擎会从上次匹配结果之后继续查找更多结果。
总结:在贪婪(默认)模式下,正则引擎尽可能多的重复匹配字符
非贪婪模式
非贪婪模式和贪婪模式相反,可通过在代表数量的标示符后放置?
来开启非贪婪模式,如?
、+?
甚至是??
。
var str = 'a "witch" and her "broom" is one';
str.match(/".*?"/g ) // "witch", "broom"
我们来看看非贪婪模式.?
是怎么运转的。 1. 第一步和上面类似,引号"
被匹配上
0_1460721156550_upload-7fed3b08-ba45-4455-a2eb-d5d05d28410e
第二步一样, ‘.’被匹配上 [图片上传中。。。(8)]
下面是二者的重要区别。 正则引擎尝试用最小可能的重复次数来进行匹配,因此在.
匹配了w
后,它立即尝试"
的匹配
0_1460721167546_upload-7655eaaa-1c6b-4b6c-8852-245886262daa
可惜没有匹配上,因为t!="
。
.
重复更多的字符,再进行尝试.
0_1460721172036_upload-36628b3d-9d07-48dc-80ff-1029be0f8532
又没匹配上,继续~~
下面终于匹配上了
0_1460721178749_upload-0672f9d6-768b-4d60-b543-ef3400d87e4f
因为正则是global
的,所以正则引擎继续后面的匹配,从引号后面的a
字符开始。后面有匹配到第二个字符串
0_1460721183846_upload-b897b023-0eec-46ff-b4bb-152009fc4d80
总结:在非贪婪模式下,正则引擎尽可能少的重复匹配字符
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。