1.什么是正则表达式(通用)
正则就是一种用来做字符串匹配的工具,通过不同的符号匹配不同的字符
2.python对正则表达式的支持
通过re模块,提供相应正则表达式的方法
a.fullmatch(正则表达式,匹配的字符串)--->用正则表达式来和指定字符串进行匹配,如果匹配成功
返回匹配对象,匹配失败返回No
python中的正则表达式是写在字符串中的,但是一般情况下会在最前面加r/R
from re import fullmatch,search
- 普通字符(代表字符本身)
re_str=''
re_str=r'abc'
result=fullmatch(re_str,'abc')
print(result)
1 .(匹配任意字符)
注意:a.一个点代表一个字符
b.不能匹配\n
匹配一个字符串,只有三个字符,第一个字符是a,第二个字符是任意字符,第三个字符是c
re_str=r'a.c'
result=fullmatch(re_str,'a=c')
print(result)
2.\w(匹配字母数字下划线)
注意:也可以匹配中文
一个\w只能匹配一个字符
匹配一个字符串,第一个字符是任意字符,第二第三个字符是数字字母下划线,最后三个是abc
re_str=r'.\w\wabc'
result=fullmatch(re_str,'大队伍abc')
print(result)
3.\s 匹配空白字符
空白字符:指的是所有能够产生空白的字符,包括空格,tab,换行等
匹配一个字符串,前两个字符是数字字母下划线中文,第三个字符是空白字符,最后一个是任意字符
re_str=r'\w\w\s.'
result=fullmatch(re_str,'1a\t)')
print(result)
result=fullmatch(re_str,'a2\n-')
print(result)
result = fullmatch(re_str, 'a2 -')
print(result)
\d 匹配数字字符
匹配一个字符串有三个字符,每个字符都是数字字
re_str=r'\d\d\d'
result=fullmatch(re_str,'298')
print(result)
- \b(检测单词边界)
a.检测正则表达式中\b所在位置是否是单词边界
b.所有可以将两个单词区分开的富豪都是单词边界
注意:\b不是匹配符号,不会匹配出一个字符,只是检测所在位置是否满足要求
#匹配一个字符串内容是‘how are’,并且要求字符‘a’的前面是单词边界
re_str=r'how \bare'
result=fullmatch(re_str,'how are')
print(result)
6.^ 检测字符串开头
检测^ 所在位置是否是字符串开头
# 匹配一个刺骨创世三个数字字符,并且字符所在位置是字符串开头
re_str=r'^\d\d\d'
result=search(re_str,'123asdfqwe34566')
print(result)
7.$ 检测字符串结尾
# 匹配一个字符串是三个数字字符,并且最后一个字符的后面是字符串结尾
re_str=r'\d\d\d$'
result=search(re_str,'asd879qwe900')
print(result)
\B 检测非代词边界
\W 非数字字母下划线
\S 非空白字符
\D 非数字字符
re_str=r'aa\Babc'
result=search(re_str,'aaabc')
print(result)
9.[字符集] 匹配字符集中的任意一个字符
注意:一个[]代表一个字符
a.普通用法
b.表示范围
[字符1-字符2] -->匹配字符1到字符2中所有的字符。
要求字符1的编码值小于字符2的编码值
[a-zA-Z] 所有字母
[a-z] 小写字母
[A-Z] 大写字母
# 匹配一个字符串有四个字符,第一个字符是a,b,c中的任意一个,后面是1234
re_str=r'[abc]1234'
result=fullmatch(re_str,'a1234')
print(result)
result=fullmatch(re_str,'b1234')
print(result)
result=fullmatch(re_str,'c1234')
print(result)
# 匹配一个字符串有四个字符第一个字符是数字1-9中的任意一个,
# 最后一个字符是任意小写字母,中间是两个任意数字
re_str=r'[1-3]\d\d[a-z]'
result=fullmatch(re_str,'278b')
print(result)
10.[^字符集] -- 匹配没有在字符集中的其他任意字符
注意;放在[]的最前面才是匹配不在字符集中的其他任意字符,,否则就表示字符
# 匹配一个字符串,第一个字符是除了abc的任意字符,后面是123
re_str=r'[^abc]123'
result=fullmatch(re_str,'q123')
print(result)
转义符号
正则中也可以通过在符号前面加\来对符号进行转义
注意:转义字符是字符串中的概念
转义符号是正则表达式的概念
\ --
. -- .
^ -- ^
b.除了再中括号中有特殊意义的符号,其他符号放
在中括号中也是表示符号本身
- :在中括号中的两个字符之间表示睡到谁,如果要表示本身,
就不要放在两个字符之间
^ :在中括号最前面有意义,如果要表示本身,就不要放在开头
] :在中括号中表示中括号要加\
匹配次数
1 (匹配0次或者多次)
字符 -- 指定字符出现0次或者多次(这儿的字符可以是正则符号或者普通字符)
a* - a 出现0次或者多次
\d* -- 任意数字出现0次或者多次
[a-z]* --任意小写字母出现0次或者多次
re_str=r'[a-z]*123'
print(re.fullmatch(re_str,'aaaa123'))
print(re.fullmatch(re_str, '123'))
# 123前面有0个或者多个字符,并且每个字符都是数字
re_str = r'\d*123'
print(re.fullmatch(re_str, '123'))
print(re.fullmatch(re_str, '1576849581123'))
2. + (匹配1次或者多次)
re_str = r'[a-z]+123'
print(re.fullmatch(re_str, 'aaaa123'))
print(re.fullmatch(re_str, 'a123'))
3.? (匹配0次或者1次)
re_str=r'\+?abc'
# 写一个正则表达式,能够匹配所有的整数
re_str=r'[+-]?[1-9]\d*|0'
注意:中括号中不能打空格
{m,n} -- 匹配m-n次,最少m次,最多n次
{m,} -- 匹配至少m次
{,n} -- 匹配最多n次
{n} -- 匹配n次
print(re.fullmatch(r'a{2,5}','aaaaa'))
print(re.fullmatch(r'[\da-zA-Z]{6,16}','3wasd3245fg'))
分之
1.分之
表达式1 | 表达式2|表达式3 -- (三个表达式有一个能够匹配成功就成功,否则匹配失败)
先用表达式1,进行匹配,若不成功使用表达式2匹配,
若还不成功就使用表达式3匹配,直到匹配成功为止
2.分组()
a.将括号里面的内容看成一个整体
r'abc([a-zA-Z]{2}|\d{2})'
b.控制次数
r'(abc){2}' -- abc 整体出现两次
b。分组重复 -- 在有分组的正则表达式中,可以在分组后面通过(数字)来重复第几个分组匹配到的内容
re_str=r'(\d{2})a(\d{3})bc\2{2}'
re_str=r'(\d{2})a(\d{3})bc\2{2}'
print(re.fullmatch(re_str,'34a123bc123123'))