正则(下)

主要是 re 模块常见方法

re.match(pattern, string)

起始位置开始检查,只要起始位置不匹配,则匹配失败。
一旦匹配,就立刻停止往后找,哪怕字符串中还有可匹配的子字符串
匹配成功返回 Match 对象,失败返回 None

re.seach(pattern, string)

起始位置开始检查,一直尝试往后检查,直到匹配为止。
其余与 match 方法相同

re.fullmatch(pattern, string)

完全匹配

print(re.fullmatch(r'.', "aa"))   # None

re.findall(pattern, string)

一旦匹配,继续往后找其他可匹配的子字符串
返回 list(元素为 str 类型,),即使匹配失败,仍然返回空列表
如果使用分组,则元素是返回的第一个分组

re.finditer(pattern, string)

返回的对象是由 Match 对象组成的迭代器
其余与 findall 方法类似

re.split(pattern, string)

与 str.split 方法类似,将 str 转化成 list

a = re.split(r'\W+', 'this is a string.')
print(a)   # ['this', 'is', 'a', 'string', '']
b = list(filter(lambda x: x, a))
print(b)   # ['this', 'is', 'a', 'string']

re.sub(pattern, repl, string)

将符合 pattern 正则的 string 用 repl 代替,与 findall 方法类似,不断匹配尽可能多的子字符串

rex = r'\w+@\w+.\w+'
print(re.sub(rex, 'good', 'aef52@126.com ad6@qq.com')) # good good
flag 参数

以上方法都有一个 flag 参数。其值有(括号内的单词为全拼,两种方式都支持):

  • re.I(IGNORECASE)::忽略大小写
  • re.S(DOTALL):(dot all)改变’.’的行为,默认 . 只能匹配除换行之外的字符,加上它就可以匹配换行了
  • re.M(MULTILINE):多行模式,改变’^’和’$’的行为
  • 当目标字符串含有\n,且正则中含有^或$的时候,re.M 才有作用。
  • 默认:(整体匹配)^ 与字符串的开始位置相匹配,而 $ 与字符串的结束位置相匹配。
  • re.M:(每行匹配)^ 与字符串开始位置以及“\n”或“\r”之后的位置相匹配,而“$”与字符串结束位置以及“\n”或“\r”之前的位置相匹配。
rex = r'^a.'

print(re.match(rex, 'Aa', re.I).group()) # 匹配

print(re.match(rex, 'a\n'))  # 不匹配
print(re.match(rex, 'a\n', re.DOTALL))  # 匹配,支持全拼

print(re.search(rex, '\nab'))  # 整体匹配,a 不在开头,故不匹配
print(re.search(rex, '\nab', re.M))  # 每行匹配,a 在某行开头,故匹配
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容