Re(正则表达式)库

1 正则表达式的概念

[regular expression, regex, RE]，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个 “规则字符串”，这个 “规则字符串” 用来表达对字符串的一种过滤逻辑。正则表达式语法由字符和操作符构成。

正则表达式是用来简洁表达一组字符串的表达式
正则表达式是一种通用的字符串表达框架
正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
正则表达式可以用来判断某字符串的特征归属

正则表达式的用途

正则表达式在文本处理中十分常用, 最主要应用在字符串匹配中
a)表达文本类型的特征（病毒、入侵等）
b)同时查找或替换一组字符串
c)匹配字符串的全部或部分

2 正则表达式的语法

正则表达式的常用操作符

正则表达式语法实例

经典正则表达式实例：

^[A-Za-z]+$                         由26个字母组成的字符串
^[A-Za-z0-9]+&                      由26个字母和数字组成的字符串
^-?\d+$                             整数形式的字符串
^[0-9]*[1-9][0-9]*$                 正整数形式的字符串
[1-9] \d{5}                         中国境内邮政编码，6位
[\u4e00-\u9fa5]                     匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7}             国内电话号码
匹配IP地址的正则表达式（IP地址分为4段，每段0~255）
0 – 99:[1-9]?d                      100 – 199:1\d{2}
200 – 249:2[0-4] \d                 250 – 255:25[0-5]
(([1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5] ).) {3} ( [1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5])

3 Re库的基本使用

Re 库是 Python 的标准库，主要用于字符串匹配
调用方式：import re
raw string 类型（原生字符串类型）
re 库采用 raw string 类型表示正则表达式，表示为 r’text’
例如：r’[1-9]\d{5}’
r’ \d{3}- \d{8}| \d{4}- \d{7}’
raw string 是不包含转义符的字符串
string 类型，更繁琐。
例如：’[1-9] \\d{5}’
’\\d{3}-\\d{8}| \\{4}-\\d{7}’
建议：当正则表达式包含转义符时，使用 raw string

Re库主要功能函数

re.search(pattern, string, flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记

re.match(pattern, string, flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串 -flags：正则表达式使用时的控制标记

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 None。re.match 只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回 None，而 re.search 匹配整个字符串，直到找到一个匹配。

re.findall(pattern, string, flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串 -f1ags：正则表达式使用时的控制标记

注意：match 和 search 是匹配一次，findall 匹配所有。

re.split(pattern, string, maxsplit = 0, flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
maxsplit：最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用时的控制标记

re.finditer(pattern, string, flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串 -f1ags：正则表达式使用时的控制标记

re.sub(pattern, repl, string, count=0，flags = 0)

pattern：正则表达式的字符串或原生字符串表示
repl：替换匹配字符串的字符串
string：待匹配字符串
count：匹配的最大替换次数
flags：正则表达式使用时的控制标记

Re 库的另一种等价用法

regex = re.compile(pattern, flags = 0)

将正则表达式的字符串形式编译成正则表达式对象

pattern：正则表达式的字符串或原生字符串表示
flags：正则表达式使用时的控制标记

# Compile a regular expression pattern, returning a pattern object.

从 compile() 函数的定义中，可以看出返回的是一个匹配对象，它单独使用没有任何意义，需要和 re 库的其它方法搭配使用。以 search 为例，利用 compile 函数可以不需要再调用 re.search()，而可以直接regex.search()。compile 函数用于编译正则表达式，生成一个正则表达式(Pattern)对象

4 Re 库的 Match 对象

Match 对象是一次匹配的结果，包含匹配的很多信息。

Match对象的方法

5 Re库的贪婪匹配和最小匹配

同时匹配长短不同的多项，返回哪一个呢？

Re库默认采用贪婪匹配，即输出匹配最长的子串。

如何输出最短的子串呢？

最小匹配操作符

只要长度输出可能不同的，都可以通过在操作符后增加 ? 变成最小匹配。

正则表达式相关补充
（1）数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串。Python 里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式 ”ab*” 如果用于查找 ”abbbc”，将找到 ”abbb”。而如果使用非贪婪的数量词 ”ab*?”，将找到 ”a”。注：我们一般使用非贪婪模式来提取。

（2）反斜杠问题
与大多数编程语言相同，正则表达式里使用 ”\” 作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符 ” \”，那么使用编程语言表示的正则表达式里将需要 4 个反斜杠 ” \\\\”：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python 里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用 r” \\” 表示。同样，匹配一个数字的 ”\\d” 可以写成 r”\d”。