使用界定符分割字符串
前言
需求是将字符串分割成多段,但是分隔符(周围的空格)并不固定。
re.split()
普通 string
对象的 split()
方法能够用于字符串分割,但前提是需求相对简单的情况下,因为 string
对象的 split()
方法并不允许有多个分隔符或者分隔符周围有不确定的空格。当需要更加灵活地切割字符的时候,建议使用 re.split()
方法。示例如下:
>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
re.split()
允许为分隔符指定多个正则模式,上面的示例中表示,分隔符可以是分号、逗号或者空格,并且后面紧跟任意空格。只要这个模式被找到,那么匹配的分隔符两边的实体都会别当成是结果中的元素返回。返回结果类型是列表。
maxsplit 和 flags 参数
这里延伸讲下 re.split()
函数的参数,该函数的完整表达形式如下:
re.split(pattern, string, maxsplit=0, flags=0)
-
pattern
就是分割模式; -
string
就是代表待分割的字符串; -
maxsplit
默认为 0,但如果这个参数非零,函数最多进行maxsplit
次分割,剩下的字符全部返回到列表的最后一个元素中; -
flags
参数为可选标记参数,例如re.M
,re.I
等。
实例代码演示 maxsplit
参数的效果
>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
在第二段代码中,函数只分割了一次,剩余元素都在列表中的最后一个元素中。
下面这段代码是 flags
这个参数的一个应用:
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']
>>> re.split('[a-f]+', '0a3B9', flags=re.I)
['0', '3', '9']
这里指定的标记参数是 re.I
跟 re.IGNORECASE
,但是两者的效果等同,这两者的作用是用于在匹配时忽略大小写。
捕获分组
使用 re.split()
函数的时候,还需要注意正则表达式是否包含一个括号的捕获分组,如果在 pattern
中捕获到括号,那么所有被匹配的文本,都会被当成一部分返回在列表里。示例如下:
>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']
\W
用于匹配特殊字符,在例子第二段代码中,被匹配的字符,也作为一部分内容返回在列表中。第三段代码,表示的是,分割模式有捕获分组,并且匹配到字符串的开始,那么结果将以一个空字符串开始,对于结尾也一样。
如果不想保留分割字符到结果列表中,但仍然需要使用到括号来分组的情况下,可以用 (?:...)
来表达分组是非捕获组,例如:
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(?:\W+)', 'Words, words, words.')
['Words', 'words', 'words', '']
注意事项
本篇文章运行环境中,Python 的版本是 3.6 ,在未升级到 3.7 的版本中, split()
函数并不支持空匹配模式,例如,文档中给出的注解:
Note: split() doesn’t currently split a string on an empty pattern match.
先给出示例代码:
>>> re.split('x*', 'axbc')
...: FutureWarning: split() requires a non-empty pattern match.
return _compile(pattern, flags).split(string, maxsplit)
['a', 'bc']
正常情况下,x*
是能够匹配 0 个 x
,无论是在 a
之前,b
和 c
之间还是 c
之后,然而这些都被忽略了。正确的结果应该是形如 ['', 'a', 'b', 'c', '']
,但这是一个向后不兼容的更改,所以会有 FutureWarning
警告抛出。
在 Python 3.6 中,空匹配模式还不被允许,强行使用的话,会抛出 ValueError
异常。例如:
>>> re.split("^$", 'foo\n\nbar\n', flags=re.M)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
...
ValueError: split() requires a non-empty pattern match.
但这部分内容,已经在 3.7 中做出了改动。在 3.8 版本中的文档中,有部分小注:
Changed in version 3.7: Added support of splitting on a pattern that could match an empty string.
这部分内容表明,在 3.7版后 re.split()
已经开始支持空匹配模式。
所以,如果使用 re.split()
空匹配模式的时候,效果未达预期,可以考虑是否是 Python 版本的原因。
以上就是本篇的主要内容