主要是 re 模块常见方法
re.match(pattern, string)
起始位置开始检查,只要起始位置不匹配,则匹配失败。
一旦匹配,就立刻停止往后找,哪怕字符串中还有可匹配的子字符串
匹配成功返回 Match 对象,失败返回 None
re.seach(pattern, string)
起始位置开始检查,一直尝试往后检查,直到匹配为止。
其余与 match 方法相同
re.fullmatch(pattern, string)
完全匹配
print(re.fullmatch(r'.', "aa")) # None
re.findall(pattern, string)
一旦匹配,继续往后找其他可匹配的子字符串
返回 list(元素为 str 类型,),即使匹配失败,仍然返回空列表
如果使用分组,则元素是返回的第一个分组
re.finditer(pattern, string)
返回的对象是由 Match 对象组成的迭代器
其余与 findall 方法类似
re.split(pattern, string)
与 str.split 方法类似,将 str 转化成 list
a = re.split(r'\W+', 'this is a string.')
print(a) # ['this', 'is', 'a', 'string', '']
b = list(filter(lambda x: x, a))
print(b) # ['this', 'is', 'a', 'string']
re.sub(pattern, repl, string)
将符合 pattern 正则的 string 用 repl 代替,与 findall 方法类似,不断匹配尽可能多的子字符串
rex = r'\w+@\w+.\w+'
print(re.sub(rex, 'good', 'aef52@126.com ad6@qq.com')) # good good
flag 参数
以上方法都有一个 flag 参数。其值有(括号内的单词为全拼,两种方式都支持):
- re.I(IGNORECASE)::忽略大小写
- re.S(DOTALL):(dot all)改变’.’的行为,默认 . 只能匹配除换行之外的字符,加上它就可以匹配换行了
- re.M(MULTILINE):多行模式,改变’^’和’$’的行为
- 当目标字符串含有\n,且正则中含有^或$的时候,re.M 才有作用。
- 默认:(整体匹配)^ 与字符串的开始位置相匹配,而 $ 与字符串的结束位置相匹配。
- re.M:(每行匹配)^ 与字符串开始位置以及“\n”或“\r”之后的位置相匹配,而“$”与字符串结束位置以及“\n”或“\r”之前的位置相匹配。
rex = r'^a.'
print(re.match(rex, 'Aa', re.I).group()) # 匹配
print(re.match(rex, 'a\n')) # 不匹配
print(re.match(rex, 'a\n', re.DOTALL)) # 匹配,支持全拼
print(re.search(rex, '\nab')) # 整体匹配,a 不在开头,故不匹配
print(re.search(rex, '\nab', re.M)) # 每行匹配,a 在某行开头,故匹配