1 正则表达式的概念
[regular expression, regex, RE],正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑。正则表达式语法由字符和操作符构成。
- 正则表达式是用来简洁表达一组字符串的表达式
- 正则表达式是一种通用的字符串表达框架
- 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
- 正则表达式可以用来判断某字符串的特征归属
正则表达式的用途
正则表达式在文本处理中十分常用, 最主要应用在字符串匹配中
a)表达文本类型的特征(病毒、入侵等)
b)同时查找或替换一组字符串
c)匹配字符串的全部或部分
2 正则表达式的语法
正则表达式的常用操作符
正则表达式语法实例
经典正则表达式实例:
^[A-Za-z]+$ 由26个字母组成的字符串
^[A-Za-z0-9]+& 由26个字母和数字组成的字符串
^-?\d+$ 整数形式的字符串
^[0-9]*[1-9][0-9]*$ 正整数形式的字符串
[1-9] \d{5} 中国境内邮政编码,6位
[\u4e00-\u9fa5] 匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7} 国内电话号码
匹配IP地址的正则表达式(IP地址分为4段,每段0~255)
0 – 99:[1-9]?d 100 – 199:1\d{2}
200 – 249:2[0-4] \d 250 – 255:25[0-5]
(([1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5] ).) {3} ( [1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5])
3 Re库的基本使用
Re 库是 Python 的标准库,主要用于字符串匹配
调用方式:import re
raw string 类型(原生字符串类型)
re 库采用 raw string 类型表示正则表达式,表示为 r’text’
例如:r’[1-9]\d{5}’
r’ \d{3}- \d{8}| \d{4}- \d{7}’
raw string 是不包含转义符的字符串
string 类型,更繁琐。
例如:’[1-9] \\d{5}’
’\\d{3}-\\d{8}| \\{4}-\\d{7}’
建议:当正则表达式包含转义符时,使用 raw string
Re库主要功能函数
re.search(pattern, string, flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- string:待匹配字符串
- flags:正则表达式使用时的控制标记
re.match(pattern, string, flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- string:待匹配字符串 -flags:正则表达式使用时的控制标记
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 None。re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,而 re.search 匹配整个字符串,直到找到一个匹配。
re.findall(pattern, string, flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- string:待匹配字符串 -f1ags:正则表达式使用时的控制标记
注意:match 和 search 是匹配一次,findall 匹配所有。
re.split(pattern, string, maxsplit = 0, flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- string:待匹配字符串
- maxsplit:最大分割数,剩余部分作为最后一个元素输出
- flags:正则表达式使用时的控制标记
re.finditer(pattern, string, flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- string:待匹配字符串 -f1ags:正则表达式使用时的控制标记
re.sub(pattern, repl, string, count=0,flags = 0)
- pattern:正则表达式的字符串或原生字符串表示
- repl:替换匹配字符串的字符串
- string:待匹配字符串
- count:匹配的最大替换次数
- flags:正则表达式使用时的控制标记
Re 库的另一种等价用法
regex = re.compile(pattern, flags = 0)
将正则表达式的字符串形式编译成正则表达式对象
- pattern:正则表达式的字符串或原生字符串表示
- flags:正则表达式使用时的控制标记
# Compile a regular expression pattern, returning a pattern object.
从 compile() 函数的定义中,可以看出返回的是一个匹配对象,它单独使用没有任何意义,需要和 re 库的其它方法搭配使用。以 search 为例,利用 compile 函数可以不需要再调用 re.search(),而可以直接regex.search()。compile 函数用于编译正则表达式,生成一个正则表达式(Pattern)对象
4 Re 库的 Match 对象
Match 对象是一次匹配的结果,包含匹配的很多信息。
Match对象的方法
5 Re库的贪婪匹配和最小匹配
同时匹配长短不同的多项,返回哪一个呢?
Re库默认采用贪婪匹配,即输出匹配最长的子串。
如何输出最短的子串呢?
最小匹配操作符
只要长度输出可能不同的,都可以通过在操作符后增加 ?
变成最小匹配。
正则表达式相关补充
(1)数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串。Python 里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式 ”ab*” 如果用于查找 ”abbbc”,将找到 ”abbb”。而如果使用非贪婪的数量 词 ”ab*?”,将找到 ”a”。注:我们一般使用非贪婪模式来提取。
(2)反斜杠问题
与大多数编程语言相同,正则表达式里使用 ”\” 作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符 ” \”,那么使用编程语言表示的正则表达式里将需要 4 个反斜杠 ” \\\\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python 里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用 r” \\” 表示。同样,匹配一个数字的 ”\\d” 可以写成 r”\d”。