正则表达式

正则表达式模块

import re

匹配流程
regex = re.compile(r'正则表达式')#返回Regex对象
result = regex.search(str)#如果str中找到则返回Match对象,否则返回None
result.group()#返回首个匹配到的字符串。如果要全部匹配,调用findall()方法
正则表达式的写法
()

表示分组。
例如:(\d\d\d)-(\d\d\d),在结果中可以通过group(1),group(2)取出两个分组匹配到的字符串。
group(0)返回的是整个匹配到的字符串。
groups()返回的是所有分组组成的元组

|

管道分配符,几个值中取其一。
例如:d(a|b|c)
可以匹配da、db、dc

()?表示前面的分组可以存在,即出现0次或1次

*

()*表示前面的分组可以出现0次或多次

+

()+表示前面的分组至少出现一次,即1次或多次

{}

(){i}表示前面的分组出现i次
(){m,n}表示前面的分组出现m次到n次
省略m表示0次到n次
省略n表示至少m次

贪心匹配和非贪心匹配

当多个字符串和正则表达式匹配时,会自动选择最长的那一个,如果想选最短的,可以在代表次数的符号后面加?

findall()方法

如果正则表达式分组了,则返回元组列表。
如果正则表达式没有分组,则返回字符串列表。

\d,\D,\w,\W,\s,\S

\d:0-9
\D:0-9以外字符
\w:字母,数字,下划线
\W:字母,数字,下划线以外字符
\s:空格、制表符、换行符
\S:空格、制表符、换行符以外字符

自定义字符分类

[aeiou]:auioe中的一个
-:表示范围。例如[a-zA-Z0-9]
[^aeiou]:字符取反,aeiou以外字符
方括号内的字符不需要转义

^,$

^:表示从匹配的字符串开始处匹配
$:表示匹配到匹配字符串的结尾

.,.*,.*?

.:表示换行以外所有单个字符
.*:表示换行以外多个字符
.*?:多个字符采取非贪心匹配

re.compile(regex, arg)

arg可以采用re.I/re.IGNORECASE,re.DOTALL,re.VERBOSE等,或采用多个|连接一起传入。
re.I/re.IGNORECASE:字母不区分大小写
re.DOTALL:使.包含换行符
re.VERBOSE:忽略正则表达式中的换行和注释

Regex.sub()

sub(str1, str2)用str1去取代str2中满足正则表达式的字符串
str1:取代的字符串
str2:匹配的字符串
str1可以采用\1,\2等去获得匹配到的字符串的第1、第2或其他的分组内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容