regular expression, regex, RE
正则表达式是用来简洁表达一组字符串的表达式
正则表达式的优势:简介、一行胜千言、一行就是特征(模式)
正则表达式在文本处理中十分常用:
表达文本类型的特征(病毒、入侵等)
同时查找或替换一组字符串
匹配字符串的全部或部分
编译:将符合正则表达式语法的字符串转换成正则表达式特征
正则表达式语法
正则表达式是由字符和操作符构成
正则表达式语法实例:
P(Y|YT|YTH|YTHO)?N 对应 'PN'、'PYN'、'PYTN'、'PYTHN'、'PYTHON'
PYTHON+ 对应
'PYTHON'、'PYTHONN'、'PYTHONNN' …
PY[TH]ON 对应
'PYTON'、'PYHON'
PY[^TH]?ON 对应
'PYON'、'PYaON'、'PYbON'、'PYcON'…
PY{:3}N 对应
'PN'、'PYN'、'PYYN'、'PYYYN'…
python RE库的使用
RE库是python库的标准库,主要用于字符串匹配
import re
re库采用raw string类型表示正则表达式,表示为:r'text'
r'[1‐9]\d{5}'
r'\d{3}‐\d{8}|\d{4}‐\d{7}'
raw string是不包含对转义符再次转义的字符串
re库也可以采用string类型表示正则表达式,但更繁琐
例如:
'[1‐9]\d{5}'
'\d{3}‐\d{8}|\d{4}‐\d{7}'
建议:当正则表达式包含转义符时,使用raw string
RE库的主要功能函数
re.search(pattern, string, flags=0)
在一个字符串中搜索匹配正则表达式的第一个位置返回match对象
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记
re.match(pattern, string, flags=0)
从一个字符串的开始位置起匹配正则表达式返回match对象
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记
re.findall(pattern, string, flags=0)
搜索字符串,以列表类型返回全部能匹配的子串
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记
re.split(pattern, string, maxsplit=0, flags=0)
将一个字符串按照正则表达式匹配结果进行分割返回列表类型
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ maxsplit: 最大分割数,剩余部分作为最后一个元素输出
∙ flags : 正则表达式使用时的控制标记
re.finditer(pattern, string, flags=0)
搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记
re.sub(pattern, repl, string, count=0, flags=0)
在一个字符串中替换所有匹配正则表达式的子串返回替换后的字符串
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ repl : 替换匹配字符串的字符串
∙ string : 待匹配字符串
∙ count : 匹配的最大替换次数
∙ flags : 正则表达式使用时的控制标记
RE库的一种等价用法
rst = re.search(r'[1‐9]\d{5}', 'BIT 100081')
pat = re.compile(r'[1‐9]\d{5}')
rst = pat.search('BIT 100081')
面向对象用法:编译后的多次操作
函数式用法:一次性操作
regex = re.compile(pattern, flags=0)
将正则表达式的字符串形式编译成正则表达式对象
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ flags : 正则表达式使用时的控制标记
regex = re.compile(r'[1‐9]\d{5}')
RE库的Match对象
Match对象是一次匹配的结果,包含匹配的很多信息
match = re.search(r'[1‐9]\d{5}', 'BIT 100081')
if match:
print(match.group(0))
type(match)
<class '_sre.SRE_Match'>
Match对象的属性
Match 对象的方法
RE库的贪婪匹配和最小匹配