什么是贪婪
在正则中控制匹配不确定次数的后面可以加 ?,来表示尽可能少的匹配
在贪婪的时候,匹配是尽可能多的匹配。
注意:尽可能少是在能够匹配到的前提下,尽可能少
*? +? ?? {M,N}? 后面加问号尽可能少的匹配
def main():
re_str = r'\d+'
print(re.search(re_str,'asdfsadf34557645==asd')) #全部数字,尽可能多的
re_str = r'\d+?'
print(re.search(re_str,'asdfsadf34557645==asd')) #只有一个3
if __name__ == '__main__':
main()
re模块
def main():
- compile(正则表达式) -->将正则表达式转换成正则对象
编译后可以直接通过对象调用相关的对象方法
re22 = re.compile(r'\d{3}') # re.compile('\\d{3}')
re22.fullmatch('234')
- fullmatch(正则表达式,字符串) ---> 让字符串和正则表达式完全匹配,匹配成功返回匹配对象,失败返回None
应用:检测字符串内容是否符合要求,例如:帐号、密码、判断手机号身份证号
result = re.fullmatch(r'(\d{3})=(q*?)', '234=qq')
print(result)
匹配对象
1。span - 匹配到的字符串在原字符串中的下标范围(结果是元组)
print(result.span()) #获取整个正则表达式匹配到的内容的范围
- start和end - 匹配到的字符串在原字符串中的开始下标和结束下标
print(result.start(),result.end())
result.span(1) # 获取正则表达式中第一个分组匹配到的内容的范围(如果没有分组分报错)
print(result.start(1), result.start(2)) #第一个分组的开始下标,第二个分组的开始下标
- group() - 获取匹配到的字符串(结果是字符串)
print(result.group()) #获取整个正则匹配到的字符串
print(result.group(1)) #获取第一个分组匹配到的字符串
print(result.groups()) #同时获取所有分组匹配到的字符串(结果是元组)
- string - 获取原字符串
print(result.string)
- match(正则表达式,字符串) -> 用字符串开头和正则表达式匹配(结果匹配对象,匹配失败None)
print(re.match(r'\D\d','s2123wqed'))
- search(正则表达式,字符串) -->在字符串中去匹配出第一个字符符合正则表达式的子串,匹配成功结果是匹配对象,失败返回None
print(re.search(r'[\u4e00-\u9fa5]{3}','s2白龙123花非花wqed'))
- split(正则表达式,字符串) -->将字符串按照满足正则要求的子串进行切割(返回值是列表)
print(re.split(r'\d+','asdf2134asdf5645dasd12dsaa'))
# ['asdf', 'asdf', 'dasd', 'dsaa']
- sub(正则表达式,新字符串1,原字符串2) --> 在原字符串2中查找能够和正则表达式匹配的子串替换成新字符串1,产生一个新的字符串
print(re.sub(r'\d','*','123sadqewqewr5454aasdasd')) #区配所有数字,每个数字替换成一个*。
print(re.sub(r'傻逼|傻','*','你是傻逼吗?')) #长字符放前面,单独一个字的放在后面。。分之是从第一个开始匹配
print(re.sub(r'傻逼|傻[插狗艹]', '*', '你是傻逼吗?')) #[]里任意一个字和前面组合也会被替换
- findall(正则表达式,字符串) --> 在字符串中获取满足正则表达式的所有的子串(结果是列表)
注意:如果正则表达式中有分组,直接获取到的是分组中匹配到的内容。。如果有多个分组,列表中的元素是元组。(每个分组单独一个元素)
print(re.findall(r'\d+','132adq6556eqew12sd'))
print(re.findall(r'(\d+)[a-z]', '132adq6556eqew12sd')) #['132', '6556', '12']
print(re.findall(r'(\d+)([a-z])', '132adq6556eqew12sd')) #[('132', 'a'), ('6556', 'e'), ('12', 's')]
- finditer(正则表达式,字符串) -->在字符串中获取满足正则表达式的所有的子串(结果是迭代器,元素是匹配对象)
result = re.finditer(r'\d+','132adq6556eqew12sd')
print(next(result).group())
- re.I -->忽略大小写
匹配的约束条件是放在函数的flags参数位置
print(re.fullmatch(r'[a-z]{2}','AS',re.I))
用户名字母,数字下滑线 6-20 ,QQ号5-12位,首位不能是0
re.fullmatch(r'[a-zA-Z\b_]{6,20}','asdfqweasdf')
re.fullmatch(r'[1-9]\d{4,11}', '12354')
if __name__ == '__main__':
main()