day17-正则表达式

一.正则表达式1

1.什么是正则表达式

处理字符串的工具，通过不同的正则符号来描述字符串的规则

2.正则符号(正则语法)

fullmatch(正则表达式, 字符串) - 查看字符串和正则表达式是否匹配，如果不匹配则返回None
正则表达式：r'正则语法'

from re import fullmatch
re_str = r''
result = fullmatch(re_str, str1)

1)普通字符：除了在正则中有特殊功能和特殊意义的符号以外的字符就是普通字符

普通字符表示字符本身

2) . - 匹配任意一个字符

3) \w - 匹配一个数字、字母或者_(在ASCII表中，非ASCII表不受约束)

4) \d - 匹配任意一个数字字符

5) \s - 匹配任意一个空白字符(包括空格字符、换行字符、制表符...)

6) \大写字母

a.\D - 匹配任意一个非数字字符

b.\S - 匹配任意一个非空白字符

7) [字符集] - 匹配字符集中出现的任意一个字符

注意：一个[]只能匹配一个字符

a.

[赵钱孙李] - 匹配'赵钱孙李'中的任意一个字符

b.

[1-9] - 匹配从1到9的任意一个字符(字符编码在'1'至'9'之间的字符)
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母
[a-zA-z0-9_] - 匹配字母、数字、_
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文字符

8) [^字符集] - 匹配不在字符集中的任意一个字符

9) 检测符号 - 不会影响字符串长度

from re import search, findall
search(正则表达式, str1)

a.\b - 检查是否是单词边界

单词边界是能够将两个单词隔开并且不会产生歧义的任意符号：空白字符、标点符号等、字符串开头和结尾
匹配规则：先去掉\b对字符串进行匹配，如果成功再检查\b所在位置是否是单词边界

b.^ - 检查^所在位置是否是字符串开头(该^在[]外)

c.$ - 检查$所在位置是否是字符串结尾

二.正则表达式2

控制次数的符号：字符符号

1. * - 匹配0次或多次字符{0,}

a123* - a12后面出现0次或多次3
123[mnxy9]* - 123、123m、123mm、123xy、1239...

2. + - 匹配1次或多次{1,}

3. ? - 匹配0次或1次{,1}

4. {}

a.{N} - 匹配N次

b.{M,N} - 匹配M到N次(至少M次，最多N次)

例：匹配6~12位的数字或字母
re_str = r'[a-zA-Z\d]{6,12}'

c.{M,} - 匹配至少M次

d.{,N} - 匹配最多N次

5.贪婪和非贪婪

在匹配次数不确定的时候()，存在贪婪和非贪婪两种情况(默认情况都是贪婪)

1)贪婪：在能够匹配成功的情况下，匹配次数尽可能多

例：

from re import search
re_str = r'a.+'
print(search(re_str, 'hsadlnj'))    # adlnj

2)非贪婪：在能够匹配成功的情况下，匹配次数尽可能少(在匹配次数后面加问号)

*?
+?
??
{M,N}?

6.分之

正则1|正则2 - 先让正则1去匹配，匹配成功就停止，否则让正则2去匹配

# 写一个正则表达式匹配一个字符串：abc的前面是两个数字或或者两个大写字母
from re import fullmatch
re_str = r'%d{2}abc|[A-Z]{2}abc'
print(fullmatch(re_str, str1))

7.分组

() - 将括号里面的内容作为一个整体

1)整体操作

r'(\d{2}|[A-Z]{2})abc' - 匹配一个字符串，后面是abc，前面是两个数字或者两个大写字母
r'([a-z}\d){3}' - 匹配字母+数字连续出现3次的字符串

2)分组

a.分组截取：方便后面分段或者分情况取不同匹配结果

from re import findall
re_str = r'(\d{3})[a-z]{3}'
print(findall(re_str, '545asda548asd544879asdfs'))    # ['545', '548', '879']

b.分组重复：在正则中用\num来重复前面第num个分组匹配到的内容

注意：\num的前面必须有至少num个分组
re_str = r'(\d{3})[a-z]{3}\1'

8.正则中的转义符号

1)加\

在正则中有特殊功能和特殊意义的符号前加\，让这个符号的特殊功能和意义消失

2)加[]

[]中有特殊意义的符号：

a.^放在开头

b.-放在两个字符之间

三.re模块

from re import *
re模块是python提供的、专门针对针对正则表达式应用的相关函数

1.compile(正则表达式) - 将正则表达式装换成正则对象(基本不用)

2.字符串匹配

fullmatch(正则表达式, 字符串) - 让正则表达式和字符串完全匹配
match(正则表达式, 字符串) - 匹配字符串开头是否满足正则表达式

匹配失败返回结果None，匹配成功返回匹配对象

1)匹配对象

a.获取匹配到的字符串

匹配对象.group() - 获取整个正则表达式匹配到的字符串，结果是字符串
匹配对象.group(N) - 获取整个正则表达式中第N个分组匹配到的字符串，结果是字符串

b.获取匹配到的字符串在原字符串中的位置信息

匹配对象.span() - 返回匹配结果在原字符串中的下标范围:[开始, 结束)
匹配对象.span(N) - 返回第N个分组匹配结果在原字符串中的下标范围:[开始, 结束)

c.获取原字符串

匹配对象.string

3.查找

1)search(正则表达式, 字符串) - 在字符串中查找第一个满足正则表达式的子串，匹配成功返回匹配对象，否则None

2)findall(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串，返回一个列表

*注意：如果正则表达式中有分组，返回结果就是匹配结果中分组内容

3)finditer(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串，返回一个迭代器，元素是匹配对象

4.切割

split(正则表达式, 字符串) - 将字符串中满足正则表达式的子串作为切割点对字符串进行切割，返回一个列表

5.替换

sub(正则表达式, 字符串1, 字符串2) - 将字符串2中所有满足正则表达式的子串都替换成字符串1