day18 正则

1.什么是正则表达式

正则表达式是字符串匹配工具，是为了在某些需求下可以更方便、更快捷的处理字符串

2.怎么使用正则处理字符串

python通过提供re模块来支持正则表达式

re.fullmatch(正则表达式，字符串) - 让正则表达式和字符串进行完全匹配，返回匹配结果，如果匹配不成功返回None

3.怎么写正规表达式

python中正则表达式是放在字符串中，并且这个字符串一般会在最前面加r/R。

r'正则'

4.正则语法

普通字符 - 代表字符本身

re_str = r'a'
result = re.fullmatch(re_str,'a')
print(result)

. - 匹配任意一个字符
一个 . 代表一个字符，匹配是任意字符

re_str = r'.abc'
result = re.fullmatch(re_str,'1abc')
print(result)

\w - 匹配一个ASCII表中的字母，数字，下划线。还可以匹配非ASCII码表字符

re_str = r'.\w'
result = re.fullmatch(re_str,'s_')
print(result)

\s - 匹配一个空白字符

空白字符包括：空格，回车，制表符

re_str = r'\s\sa'
result = re.fullmatch(re_str,'\n\ta')
print(result)

\d - 匹配一个数字字符

re_str = r'年龄:\d\d'
result = re.fullmatch(re_str,'年龄:12')
print(result)

\b - 检测单词边界(检测\b所在的位置是否是单词边界)

单词边界：所有能够标志一个单词开始或者结束的符号。

^ - 检测是否是字符串开头

result = re.fullmatch(r'^\d\d','23')
print(result)

$ - 检测是否是字符串结尾

result = re.fullmatch(r'\d\d$','89金额：23,100 年龄：81')
print(result)

\大写字母 - 对‘\小写字母’的否定

\W  -  匹配非数字、字母、下划线
\S  -  匹配非空白字符
\D  -  匹配非数字字符
\B  -  检测是否是非单词边界

[字符集] - 匹配 [] 中任意一个字符

a.
[普通字符集] - 匹配 [] 中任意一个字符

b.用 - 表示范围
[字符1-字符2] - 匹配编码值在字符1编码到字符2编码之间的任意一个字符  （ord(字符1) < ord(字符 2)）
[0-9]  -  所有数字字符中的一个
[2-9]  -  所有'2'-'9'数字字符中的一个
[一-龥] - 所有中文字符中的一个

c.[]内容中的最前面加^,表示否定 （只有放在[]里的最前面才有意义）
[^abc]   -  表示 除了'a''b''c'的任意一个字符
[^a-z]   -   表示 除了小写字母的任意一个字符

# 匹配一个字符串长度为 4 ，后3位是‘123’，第一位是 ‘a’‘b’‘c’中任意一个
re_str = r'[abc]123'
result = re.fullmatch(re_str,'a123')
print(result)

转义符号 - 将正则中有特殊意义或者特殊功能的符号变成普通符号

a.在中括号外
在特殊符号前加'\'让其特殊意义消失

b.在中括号内
单独的有特殊意义的符号，除了'^'在最前面，'-'在两个字符之间，其他的都不需要转义，特殊意义自动消失

================匹配次数==============

- 匹配 0 次或者多次

r'a*bc' -  匹配一次字符串，'bc'前有0个或者多个a
r'\d*'  -   匹配一个字符串由 0 个或者多个任意数字字符组成

"""

re_str = r'a\d*b'
result = re.fullmatch(re_str,'a12b')
print(result)

# 练习，写一个正则表达式能够匹配所有的小数
re_str = r'\d\d*\.\d\d*'
result = re.fullmatch(re_str,'5144.1233')
print(result

- 匹配至少一次

re_str = r'\d+\.\d+'
result = re.fullmatch(re_str,'5144.1233')
print(result)

{}
"""
{N} - 匹配N次
{M,N} - 匹配 M 到 N 次
{M,} - 匹配至少M次
{,N} - 匹配最多N次
"""

re_str = r'\d{4}'
result = re.fullmatch(re_str,'2134')
print(result)

re_str = r'\d{2,5}'
result = re.fullmatch(re_str,'12')
print(result)

re_str = r'\d{4,}'
result = re.fullmatch(re_str,'2134')
print(result)

re_str = r'\d{,4}'
result = re.fullmatch(re_str,'')
print(result)

? - 匹配 0 次或 1 次

==============贪婪和非贪婪==============

匹配次数不明确时，尽可能多的匹配为贪婪匹配

非贪婪匹配是在次数不明确的符号后面加？

*?
+?
{M,N}?
{M,}?
{,N}?

===================分支/选择=============

正则1 | 正则2 - 先用正则1去匹配，如果匹配成功就成功，匹配不成功再使用正则2去匹配

 要求用户名全部都是数字或者字母，长度是6-12
re_str = r'\d{6,12}|[a-zA-Z]{6,12}'
result = re.fullmatch(re_str,'caqwqdqqfq')
print(result)

=================分组()==================
"""
a.将小括号中的内容当做一个整体来操作

b. \数字 - 重复第几个分组匹配结果
"""

re_str = r'[a-zA-Z\d](a|b|c)'
result = re.fullmatch(re_str,'2c')
print(result)

re_str = r'(a|b|c)(a|b|c)\2(a|b|c)'
result = re.fullmatch(re_str,'abbb')
print(result)

完全匹配 - 让字符串长度，字符的值和正则表达式完全匹配
"""
re.fullmatch(正则表达式，字符串) - 匹配成功返回匹配对象，匹配失败返回None

当需要对整个字符串进行条件判断的时候使用：
"""

result = re.fullmatch(r'(\d{3})=([a-z]{3})','234=haj')
print(result)   #<_sre.SRE_Match object; span=(0, 7), match='234=haj'>

span 匹配到的内容在源字符串中的位置

print(result.span())  # (0, 7)
print(result.span(1))  # (0, 3)    正则表达式中第一个分组匹配结果的范围
print(result.span(2))  # (4, 7)    正则表达式中第二个分组匹配结果的范围

print(result.start(2),result.end(2))  # 4 7

获取匹配到的值

print(result.group())    # 整个正则表达式的匹配结果
print(result.group(1))   #  第一个分组的匹配结果
print(result.group(2))   #  第二个分组的匹配结果

获取原字符串`

print(result.string)

匹配字符串开头
"""
re.match(正则表达式，字符串) - 判断字符串的开头是否和正则表达式相匹配，匹配成功返回匹配对象，失败返回None

只检测字符串开头是否满足要求
"""

result = re.match(r'\d{3}','123aaaaa')
print(result)

search

"""
re.search(正则表达式，字符串) - 在字符串中查找是否有和正则表达式匹配的字串，如果没有返回None
如果有就返回第一个匹配结果
"""

result = re.search(r'(\d{3})=([a-z]{3})','how 231=aasdd3232=12121===')
print(result,result.span(),result.group())

findall

"""
re.findall(正则表达式，字符串) - 获取字符串中所有满足正则表达式的字串，以列表的形式返回

注意: 正则表达式中含有分组，如果只有一个分组，列表元素就是分组匹配到的内容
如果有多个分组，列表的元素就是每个分组匹配的结果以元祖形式呈现
"""

result = re.findall(r'\d+','au asdai2nbiu23b3ibi 8abaib9')
print(result)

finditer

"""
re.finditer(正则表达式，字符串) - 获取字符串中所有能够和正则表达式匹配的子串的匹配结果。
返回值是一个迭代器，迭代器中的元素是匹配结果
"""

result = re.finditer(r'abc(\d|[A-Z]{2})','abc2-abcHD===')
print(result)

for item in result:
    print(item.group(),item.span())
    print(item.group(1))


result = re.findall(r'\d+\.\d+|\d+','are 89he ks90.2 ans78oo1.23h!w9end9009ooo')
print(result)          # r'\d+\.?\d*'
sum = 0
for item in result:
    sum += float(item)
print(sum)

split

"""
re.split(正则表达式，字符串) - 将字符串按照满足正则表达式的子串进行切割
"""

result = re.split(r'[=/-]','aaa=ddd-aaw/w22')
print(result)

sub

"""
re.sub(正则表达式，新字符串，字符串,替换次数) - 将字符串中满足正则表达式的子串替换成新字符串

替换次数可以不复制，表示全部替换
"""

result = re.sub(r'\d','=','aoh2iho23oh441nb23h1h3')
print(result)

day18 正则

day18 正则

1.什么是正则表达式

2.怎么使用正则处理字符串

3.怎么写正规表达式

4.正则语法

search

findall

finditer

split

sub

相关阅读更多精彩内容

友情链接更多精彩内容