1.正则表达式
正则表达式是一种特殊的字符串模式,用于匹配一组字符串,就好比用模具做产品,而正则就是这个模具,定义一种规则去匹配符合规则的字符。
2.正则表达式的相关解释
贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(abc)。
非贪婪匹配:就是匹配到结果就好,就少的匹配字符。如上面使用模式p匹配字符串str,结果就是匹配到:abc(abc)。
默认是贪婪模式;在量词后面直接加上一个问号?就是非贪婪模式。
一般倾向使用非贪婪模式。
3.Python re模块配合正则使用
常用的功能函数包括:compile、search、match、split、findall(finditer)、sub(subs)
函数原型如下:
pattern = re.compile(string[,flag])
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])
示例:
import re
pattern = re.compile(r'abc')
result1 = re.match(pattern,'abc')
result2 = re.match(pattern,'abc CQC')
result3 = re.match(pattern,'ab CQC')
result4 = re.match(pattern,'abc CQC')
if result1:
print result1.group()
else:
print '1fail'
if result2:
print result2.group()
else:
print '2fail'
if result3:
print result3.group()
else:
print'3fail'
if result4:
print result4.group()
else:
print '4fail'
结果如下:
abc
abc
3fail
abc
正则表达如下:
语法 | 意义 | 说明 |
---|---|---|
"." | 任意字符 | a.c--->abc |
"^" | 字符串开头 | 'hello'匹配'helloword' 不匹配'aaaaahello' |
"$" | 字符串结尾 | 只匹配结尾字符串 |
"*" | 匹配前一个字符0个或无限次 | abc*--->ab或者abccc |
"+" | 匹配前一个字符1次或无限次 | abc+--->abc或者abccc |
"?" | 匹配前一个字符0次或者1次 | abc?--->ab或者abc |
"{m}" | 匹配前一个字符串m次 | ab{3}c--->abbbc |
"{m,n}" | 匹配前一个字符串m至n次 | ab{1,2}c--->abc或abbc |
"\A" | 仅匹配字符串开头 | \Aabc--->abc |
"\Z" | 仅匹配字符串结尾 | abc\Z--->abc |
属性:
1.string: 匹配时使用的文本。
2.re: 匹配时使用的Pattern对象。
3.pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
4.endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
5.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
6.lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。
方法:
1.group([group1, …]):
获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。
2.groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。
3.groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。
4.start([group]):
返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。
5.end([group]):
返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。
6.span([group]):
返回(start(group), end(group))。
7.expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组,但不能使用编号0。\id与\g是等价的;但\10将被认为是第10个分组,如果你想表达\1之后是字符’0’,只能使用\g0。