正则表达式

正则表达式模块

import re

匹配流程

regex = re.compile(r'正则表达式')#返回Regex对象
result = regex.search(str)#如果str中找到则返回Match对象，否则返回None
result.group()#返回首个匹配到的字符串。如果要全部匹配，调用findall()方法

正则表达式的写法

()

表示分组。
例如：(\d\d\d)-(\d\d\d)，在结果中可以通过group(1)，group(2)取出两个分组匹配到的字符串。
group(0)返回的是整个匹配到的字符串。
groups()返回的是所有分组组成的元组

|

管道分配符，几个值中取其一。
例如：d(a|b|c)
可以匹配da、db、dc

？

()?表示前面的分组可以存在，即出现0次或1次

*

()*表示前面的分组可以出现0次或多次

+

()+表示前面的分组至少出现一次，即1次或多次

{}

(){i}表示前面的分组出现i次
(){m,n}表示前面的分组出现m次到n次
省略m表示0次到n次
省略n表示至少m次

贪心匹配和非贪心匹配

当多个字符串和正则表达式匹配时，会自动选择最长的那一个，如果想选最短的，可以在代表次数的符号后面加？

findall()方法

如果正则表达式分组了，则返回元组列表。
如果正则表达式没有分组，则返回字符串列表。

\d，\D，\w，\W，\s，\S

\d：0-9
\D：0-9以外字符
\w：字母，数字，下划线
\W：字母，数字，下划线以外字符
\s：空格、制表符、换行符
\S：空格、制表符、换行符以外字符

自定义字符分类

[aeiou]：auioe中的一个
-：表示范围。例如[a-zA-Z0-9]
[^aeiou]：字符取反，aeiou以外字符
方括号内的字符不需要转义

^，$

^：表示从匹配的字符串开始处匹配
$：表示匹配到匹配字符串的结尾

.，.，.?

.：表示换行以外所有单个字符
.*：表示换行以外多个字符
.*?：多个字符采取非贪心匹配

re.compile(regex, arg)

arg可以采用re.I/re.IGNORECASE，re.DOTALL，re.VERBOSE等，或采用多个|连接一起传入。
re.I/re.IGNORECASE：字母不区分大小写
re.DOTALL：使.包含换行符
re.VERBOSE：忽略正则表达式中的换行和注释

Regex.sub()

sub(str1, str2)用str1去取代str2中满足正则表达式的字符串
str1：取代的字符串
str2：匹配的字符串
str1可以采用\1，\2等去获得匹配到的字符串的第1、第2或其他的分组内容

最后编辑于：2018.06.14 07:59:27

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

正则表达式