“多行模式”听起来是与“单行模式”对应的,其实这两个模式没有任何联系。
单行模式影响的是点号的匹配规则:在默认模式下,元字符.
可以匹配除换行符之外的任何字符,在单行模式下,元字符.
可以匹配包括元字符.
在内的任何字符。
多行模式影响的是^
和$
的匹配规则:在默认模式下,^和
$`匹配的是整个字符串的起始位置和结束位置,但是在多行模式下,它们也能匹配字符串内部某一行文本的起始位置和结束位置。
假设,需要找到下面文本中所有数字字符开头的行。
1 line
no digit
3 line
为了解决这个问题,需要定位到没行的起始位置,尝试匹配一个数字字符,如果成功,则匹配之后的整行文本。多行模式的模式修饰符是m(Multi line),所以在表达式开头用(?m)
指定多行模式,这样^
可以定位到字符串内部每一行的起始位置;因为没有指定单行模式,点号.
不能匹配换行符,.*
可以匹配“之后的整行文本”。所以整个表达式为(?m)^\d.*
。
例5-3 用模式修饰符指定多行模式
multiline_str = "1 line\nno digit\n3 line"
lineBeginWithDigitRegex = r"(?m)\d.*"
print([x for x in re.findall(lineBeginWithDigitRegex, multiline_str)])
# ['1 line', '3 line']
例5-4 在多行模式下,给行末添加句号
multiline_str = "1 line\nno digit\n3 line"
lineEndRegex = r"(?m)$"
print(re.sub(lineEndRegex, '.', multiline_str))
#######
1 line.
no digit.
3 line.
上面的表达式几乎是任何语言中通用的,除了javascript,因为它不支持用模式修饰符指定模式,但是可以使用预定义常量来指定多行模式。
表5-4 常用语言中多行模式的预定义常量
语言 | 常量 |
---|---|
.NET | RegexOptions.Multiline |
JAVA | Pattern.MULTILINE |
JavaScript | /regex/m |
PHP | /regex/m |
Python | re.M<br />re.MULTILINE |
Ruby | 默认为多行模式 |
在各种语言中,多行模式对应预定义常量的写法比较统一,都是multiline。值得一提的是Ruby,它默认就采用多行模式,^
和$
在任何情况下都能匹配文本内部的行起始/结束位置。如果要在Ruby中摆脱多行模式,只能用\A
代替^
,用\Z
代替$
。