今天学习了一下python正则表达式,对于<b>.*?</b>,这个正则表达式有所疑问。查了一下,大部分对此解释是懒惰匹配,我不是特别理解,所以做了以下探究:
几个常见正则表达式
- [0-9] \d 匹配数字
- \w 字符
- {2} {n} 前面表达式出现n次
- + 前面表达式出现 >= 1
- ? 0 or 1
- * >= 0
.*? 懒惰匹配模式
即匹配最短字符串,最短匹配,主要是由问号实现
import re
print(re.findall(r'(da?)', 'dads dsds sda daada')) #a出现0或1次
print(re.findall(r'(da*?)', 'dads dsds sda daada')) #a不出现
print(re.findall(r'(da+?)', 'dads dsds sda daada')) #a只出现一次
print(re.match(r'(da*?)', 'dads dsds sda daada').group())
输出结果:
['da', 'd', 'd', 'd', 'da', 'da', 'da']
['d', 'd', 'd', 'd', 'd', 'd', 'd']
['da', 'da', 'da', 'da']
d
当?跟在 <b>*+</b> 后面时,其含义为最小匹配,<b>+</b>本来代表出现次数大于或等于1,
这里则限定为了1;<b>*</b> 此时表示出现0次
如果为了匹配da再加一个字符,则需要使用 .
s = 'dads dsds sda daada'
print(len(s))
#返回了20个空字符串(不是空格)
print(re.findall(r'(.*?)', 'dads dsds sda daada'))
#da匹配后再加一个字符(包括空格)
print(re.findall(r'(da.+?)', 'dads dsds sda daada'))
print(re.findall(r'(da.*?)', 'dads dsds sda daada'))
#贪婪匹配,当遇到地一个d时,匹配没有停止,一直到最后一个d,所以只返回了一个字符串
print(re.findall(r'(d.*d)', 'dads dsds sda daada'))
#非贪婪匹配,第一次遇到d结束匹配,继续下一次查找
print(re.findall(r'(d.*?d)', 'dd dads dsds sda daada'))
#空格匹配和空字符串不一样,注意
print(re.findall(r'(\s)', 'dd dads dsds sda daada'))
19
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']
['dad', 'da ', 'daa']
['da', 'da', 'da', 'da']
['dads dsds sda daad']
['dd', 'dad', 'dsd', 'da d']
[' ', ' ', ' ', ' ']
注意正则中的空格,空格也是匹配内容