正则表达式
一、什么是正则表达式
正则表达式是处理字符串的工具,通过不同的正则符号来描述字符串的规则
二、正则符号(正则表达式的语法)
1.匹配字符
1)普通字符:
除了在正则中有特殊功能和特殊意义的符号以外的字符都是普通字符
# 匹配一个字符串有三个字符,分别是'a''b''c'
re_str = r'abc'
result = fullmatch(re_str, 'abc')
print(result)
2).
匹配任意一个字符
# 匹配一个字符串长度是8,前面三个字符串是123,中间是两个任意字符
re_str = r'abc..123'
result = fullmatch(re_str, 'abcde123')
print(result)
3.\w
匹配一个数字、字母或者_(在ASCII码表中)
# 匹配一个长度是4的字符串,第一个字符是数字、字母或者_
re_str = r'\wabc'
result = fullmatch(re_str, '3abc')
print(result)
4)\d
匹配任意一个数字字符
# 匹配一个长度是五的字符型,前两个字符是任意数字,后面三个是任意字符
re_str = r'\d\d...'
result = fullmatch(re_str, '12jio')
print(result)
5)\s
匹配任意一个空白字符
空白字符包括:空格字符、换行字符、制表符···
re_str = r'a\s\sb'
print(fullmatch(re_str, 'a b'))
6)\大写字母
\D - 匹配除了数字字符以外的任意字符(匹配一个非数字字符)
\S - 匹配一个非空白字符
re_str = r'\Dabc\S'
print(fullmatch(re_str, '9abch'))
7)[字符集]
匹配字符集中出现的任意字符
例如:
[abc] - 匹配abc中任意一个字符
[赵钱孙李] - 匹配赵钱孙李中的字符
b.
[1-9] - 匹配1到9中的任意一个字符(字符编码值递增)
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母D
[a-zA-Z\d_] - 匹配任意一个字母、数字、下划线
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文
# 匹配一个长度是4的字符串,第一个字符是1或者3或者7,后面是abc
re_str = r'[137]abc'
print(fullmatch(re_str, '7abc'))
re_str = r'[!-&]123'
print(fullmatch(re_str, '#123'))
8)[^字符集]
匹配不在字符集中的字符
[^abc] - 匹配任意一个不是a、b、c的字符
[^2-8] - 匹配任意一个不是2到8的字符
[^\u4e00-\u9fa5] - 匹配任意一个不是汉字的字符
print(fullmatch(r'[^2-8]abc', '1abc'))
2.检测字符
所有的检测符号都不会影响字符串的长度
1)\b
检测是否是单词边界
单词边界 - 能够将两个单词隔开并且不会产生歧义的任意符号:空格字符、标点符号、字符串开头和结尾
匹配规则:先去掉\b对字符串进行匹配,如果匹配成功再检查\b所在的位置是否是单词边界
# 匹配一个字符串长度是6,每一个字符分别是abc123,并且要求abc和123之间是单词边界
re_str = r'abc\b123'
print(fullmatch(re_str, 'abc123'))
re_str = r'hi.\bare'
print(fullmatch(re_str, 'hi are'))
re_str = r'\b[\u4e00-\u9fa5][\u4e00-\u9fa5]\b'
2)^
检测^所在的位置是否是字符串开头
注意:这儿的^是在[]外面的
re_str = r'\d\d\d'
print(fullmatch(re_str, '345'))
print(search(re_str, '345===rer12300k0ke9h88hf0jf8hf875fhw03h8'))
print(findall(re_str, '345===rer123000k0ke9h88hf0jf8hf875fhw03h8'))
3)$
检测$的位置是否是字符串的结尾
re_str = r'\d\d\d$'
print(fullmatch(re_str, '345'))
print(search(re_str, '345===rer12300k0ke9h88hf0jf8hf875fhw03h8'))
print(findall(re_str, '345===rer123000k0ke9h88hf0jf8hf875fhw03h8'))
3.控制字符次数的符号
1)*
匹配0次或者多次
例如:
a* - a出现0次或多次,123,123a,123aa,123aaa
123\d* - 123后面出现0个或者多个任意数字字符,123,1234,12345,123456
123[mnxy9]* - 123,123m,123mn
re_str = r'abc0*123'
print(fullmatch(re_str, 'abc000123'))
2)+
匹配1次或者多次
re_str = r'123a+'
print(fullmatch(re_str, '123a'))
3)?
匹配0次或者1次
print(fullmatch(r'_?123', '_123'))
4){}
1){N} - 匹配N次
a{3} - 匹配三个a
\d{3} - 匹配三个任意数字
2){M,N} - 匹配M到N次(匹配至少M次最多N次)
3){N,} - 匹配N次或者更多次
4){,N} - 最多N次
# 匹配电话号码
re_str = r'1[3-9]\d{9}'
# 匹配密码:要求6-12位的数字或者字母
re_str = r'[a-zA-Z\d]{6,12}'
print(fullmatch(re_str, '1dsrewf43'))
5)贪婪和非贪婪
在匹配次数不确定的时候,会出现贪婪和非贪婪两种情况:默认情况都是贪婪。
1)什么是贪婪:在能够匹配成功的前提下,匹配次数尽可能多
2)什么是非贪婪:在能够匹配成功的前提下,匹配次数尽可能少(在匹配次数后面加?)
re_str = 'a.*?e'
print(search(re_str, 'hesafrae'))
re_str = r'a.+b'
print(search(re_str, 'a123b234b123')) # a123b234b
re_str = r'a.+?b'
print(search(re_str, 'a123b234b123')) # a123b
4.分支
1)|
正则1|正则2 - 先用正则1去匹配,如果不成功则用正则2去匹配
正则1和正则2中只要有一个匹配成功就行
re_str = r'abc|123'
print(fullmatch(re_str, 'abc'))
re_str = r'\d{2,5}|[a-z]+123'
print(fullmatch(re_str, 's123'))
5.分组
1)()
将括号里面的内容作为一个整体
①整体操作
r'(\d\d|[A-Z]{2})abc' - 匹配一个字符串后面是abc,前面是两个数字或者两个大写字母
r'([a-z]\d){3}' - a8n7j8
②分组
a.分组截取:方便后面分段或者分情况取不同匹配结果
b.分组重复:在正则中用\X来重复前面第X个分组匹配到的内容
注意:\X的前面必须有这个分组
re_str = r'(\d{3})([a-z]{3})'
print(fullmatch(re_str, '344hsj'))
print(findall(re_str, '你还是123ncj====nv789jid;;;kfj123vn222dmv'))
re_str = r'(\d{3})[a-z]{3}\1'
print(fullmatch(re_str, '123abc123'))
6.转义字符
1)加\
在正则中有特殊功能和特殊意义的符号前加\,让这个符号的特殊功能消失
re_str = r'\d{3}\.[a-z]{3}'
print(fullmatch(re_str, '234.eqr'))
re_str = r'a\+[a-z]{3}\\b'
print(fullmatch(re_str, r'a+eqr\b'))
2)加[ ]
在[ ]中有特殊意义的符号:a.^放在最开头 b.-放在两个字符之间
其他符号包括:.+?*$,这个单独的符号在[]中都表示这个符号本身
re_str = r'\d{3}[.][a-z]{3}'
print(fullmatch(re_str, '123.sdf'))
三、re模块
re模块是python提供的,专门针对正则表达式应用的相关函数
1.compile(正则表达式) -> 将正则表达式转换成正则对象
2.字符串匹配
fullmatch(正则表达式, 字符串) - 让正则表达式和字符串完全匹配
match(正则表达式, 字符串) - 匹配字符串开头
以上两个方法的结果:匹配失败结果是None,匹配成功会返回匹配对象
re_str = r'\d{3}'
print(fullmatch(re_str, '123')) # <re.Match object; span=(0, 3), match='123'>
print(match(re_str, '12378qwq')) # <re.Match object; span=(0, 3), match='123'>
1)匹配对象
a.获取匹配到的字符串
匹配对象.group() - 获取整个正则表达式匹配到的字符串,结果是字符串
匹配对象.group(N) - 获取整个正则表达式中第N个分组匹配到的字符串
result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))
b.获取匹配到的字符串在原字符串中的位置信息
匹配对象.span() -> 返回匹配结果在原字符串中下标范围:[开始下标,结束下标]
匹配对象.span(N) -> 返回返回第N个分组匹配到的结果在原字符串中下标范围:[开始下标,结束下标]
result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result)
print(result.span())
print(result.span(2))
stat, end = result.span(1)
print(stat, end)
c.获取原字符串
匹配对象.string
result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result.string)
3.查找
1)search(正则表达式,字符串) - 在字符串中查找第一个满足表达式的子串,如果找到了结果是匹配对象,如果找不到结果是None
2)findall(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串,返回一个列表
注意:如果正则表达式中有分组,列表中的匹配结果只会取分组匹配到的内容
3)finditer(正则表达式,字符串) - 获取字符串中多有满足正则表达式的子串,返回值是一个迭代器,元素是匹配对象
result = search(r'\d{3}', '是否234ash==347jshdf')
print(result)
result = findall(r'(\d{3})([a-z]{2})', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result) # [('234', 'mm'), ('938', 'nf'), ('234', 'nn')]
result = findall(r'(\d{3})[a-z]{2}', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result) # ['234', '938', '234']
result = findall(r'\d{3}[a-z]{2}', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result) # ['234mm', '938nf', '234nn']
result = finditer(r'(\d{3})([a-z]{2})', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
group = []
group1 = []
group2 = []
for x in result:
group.append(x.group())
group1.append(x.group(1))
group2.append(x.group(2))
print(group, group1, group2) # ['234mm', '938nf', '234nn'] ['234', '938', '234'] ['mm', 'nf', 'nn']
4.切割
split(正则表达式,字符串) - 将字符串中将正则表达中的子串作为切割点对字符串进行切割;返回值是一个字符串列表
result = split(r'\d+', '我孵化器343和vjj8hv348d非')
print(result)
5.替换
sub(正则表达式,字符串1, 字符串2) - 将字符串2中所有满足正则表达式的子串都替换成字符串1