正则表达式模块
import re
匹配流程
regex = re.compile(r'正则表达式')#返回Regex对象
result = regex.search(str)#如果str中找到则返回Match对象,否则返回None
result.group()#返回首个匹配到的字符串。如果要全部匹配,调用findall()方法
正则表达式的写法
()
表示分组。
例如:(\d\d\d)-(\d\d\d),在结果中可以通过group(1),group(2)取出两个分组匹配到的字符串。
group(0)返回的是整个匹配到的字符串。
groups()返回的是所有分组组成的元组
|
管道分配符,几个值中取其一。
例如:d(a|b|c)
可以匹配da、db、dc
?
()?表示前面的分组可以存在,即出现0次或1次
*
()*表示前面的分组可以出现0次或多次
+
()+表示前面的分组至少出现一次,即1次或多次
{}
(){i}表示前面的分组出现i次
(){m,n}表示前面的分组出现m次到n次
省略m表示0次到n次
省略n表示至少m次
贪心匹配和非贪心匹配
当多个字符串和正则表达式匹配时,会自动选择最长的那一个,如果想选最短的,可以在代表次数的符号后面加?
findall()方法
如果正则表达式分组了,则返回元组列表。
如果正则表达式没有分组,则返回字符串列表。
\d,\D,\w,\W,\s,\S
\d:0-9
\D:0-9以外字符
\w:字母,数字,下划线
\W:字母,数字,下划线以外字符
\s:空格、制表符、换行符
\S:空格、制表符、换行符以外字符
自定义字符分类
[aeiou]:auioe中的一个
-:表示范围。例如[a-zA-Z0-9]
[^aeiou]:字符取反,aeiou以外字符
方括号内的字符不需要转义
^,$
^:表示从匹配的字符串开始处匹配
$:表示匹配到匹配字符串的结尾
.,.*,.*?
.:表示换行以外所有单个字符
.*:表示换行以外多个字符
.*?:多个字符采取非贪心匹配
re.compile(regex, arg)
arg可以采用re.I/re.IGNORECASE,re.DOTALL,re.VERBOSE等,或采用多个|连接一起传入。
re.I/re.IGNORECASE:字母不区分大小写
re.DOTALL:使.包含换行符
re.VERBOSE:忽略正则表达式中的换行和注释
Regex.sub()
sub(str1, str2)用str1去取代str2中满足正则表达式的字符串
str1:取代的字符串
str2:匹配的字符串
str1可以采用\1,\2等去获得匹配到的字符串的第1、第2或其他的分组内容