python中.*?正则表达式探究

今天学习了一下python正则表达式,对于<b>.*?</b>,这个正则表达式有所疑问。查了一下,大部分对此解释是懒惰匹配,我不是特别理解,所以做了以下探究:

几个常见正则表达式

  1. [0-9] \d 匹配数字
  2. \w 字符
  3. {2} {n} 前面表达式出现n次
    • + 前面表达式出现 >= 1
    • ? 0 or 1
    • * >= 0

.*? 懒惰匹配模式

即匹配最短字符串,最短匹配,主要是由问号实现

import re
print(re.findall(r'(da?)', 'dads dsds sda daada')) #a出现0或1次
print(re.findall(r'(da*?)', 'dads dsds sda daada')) #a不出现
print(re.findall(r'(da+?)', 'dads dsds sda daada')) #a只出现一次
print(re.match(r'(da*?)', 'dads dsds sda daada').group())
输出结果:
['da', 'd', 'd', 'd', 'da', 'da', 'da']
['d', 'd', 'd', 'd', 'd', 'd', 'd']
['da', 'da', 'da', 'da']
d

当?跟在 <b>*+</b> 后面时,其含义为最小匹配,<b>+</b>本来代表出现次数大于或等于1,
这里则限定为了1;<b>*</b> 此时表示出现0次

如果为了匹配da再加一个字符,则需要使用 .

s = 'dads dsds sda daada'
print(len(s))

#返回了20个空字符串(不是空格)
print(re.findall(r'(.*?)', 'dads dsds sda daada'))

#da匹配后再加一个字符(包括空格)
print(re.findall(r'(da.+?)', 'dads dsds sda daada'))
print(re.findall(r'(da.*?)', 'dads dsds sda daada'))

#贪婪匹配,当遇到地一个d时,匹配没有停止,一直到最后一个d,所以只返回了一个字符串
print(re.findall(r'(d.*d)', 'dads dsds sda daada')) 
#非贪婪匹配,第一次遇到d结束匹配,继续下一次查找
print(re.findall(r'(d.*?d)', 'dd dads dsds sda daada'))
#空格匹配和空字符串不一样,注意
print(re.findall(r'(\s)', 'dd dads dsds sda daada'))
19
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']
['dad', 'da ', 'daa']
['da', 'da', 'da', 'da']
['dads dsds sda daad']
['dd', 'dad', 'dsd', 'da d']
[' ', ' ', ' ', ' ']

注意正则中的空格,空格也是匹配内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容