Python 使用界定符分割字符串

使用界定符分割字符串

前言

需求是将字符串分割成多段，但是分隔符（周围的空格）并不固定。

re.split()

普通 string 对象的 split() 方法能够用于字符串分割，但前提是需求相对简单的情况下，因为 string 对象的 split() 方法并不允许有多个分隔符或者分隔符周围有不确定的空格。当需要更加灵活地切割字符的时候，建议使用 re.split() 方法。示例如下：

>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

re.split() 允许为分隔符指定多个正则模式，上面的示例中表示，分隔符可以是分号、逗号或者空格，并且后面紧跟任意空格。只要这个模式被找到，那么匹配的分隔符两边的实体都会别当成是结果中的元素返回。返回结果类型是列表。

maxsplit 和 flags 参数

这里延伸讲下 re.split() 函数的参数，该函数的完整表达形式如下：

re.split(pattern, string, maxsplit=0, flags=0)

pattern 就是分割模式；
string 就是代表待分割的字符串；
maxsplit默认为 0，但如果这个参数非零，函数最多进行 maxsplit 次分割，剩下的字符全部返回到列表的最后一个元素中；
flags 参数为可选标记参数，例如 re.M,re.I 等。

实例代码演示 maxsplit 参数的效果

>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']

在第二段代码中，函数只分割了一次，剩余元素都在列表中的最后一个元素中。

下面这段代码是 flags 这个参数的一个应用：

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']
>>> re.split('[a-f]+', '0a3B9', flags=re.I)
['0', '3', '9']

这里指定的标记参数是 re.I 跟 re.IGNORECASE，但是两者的效果等同，这两者的作用是用于在匹配时忽略大小写。

捕获分组

使用 re.split() 函数的时候，还需要注意正则表达式是否包含一个括号的捕获分组，如果在 pattern 中捕获到括号，那么所有被匹配的文本，都会被当成一部分返回在列表里。示例如下：

>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

\W 用于匹配特殊字符，在例子第二段代码中，被匹配的字符，也作为一部分内容返回在列表中。第三段代码，表示的是，分割模式有捕获分组，并且匹配到字符串的开始，那么结果将以一个空字符串开始，对于结尾也一样。

如果不想保留分割字符到结果列表中，但仍然需要使用到括号来分组的情况下，可以用 (?:...) 来表达分组是非捕获组，例如：

>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(?:\W+)', 'Words, words, words.')
['Words', 'words', 'words', '']

注意事项

本篇文章运行环境中，Python 的版本是 3.6 ，在未升级到 3.7 的版本中， split() 函数并不支持空匹配模式，例如，文档中给出的注解：

Note: split() doesn’t currently split a string on an empty pattern match.

先给出示例代码：

>>> re.split('x*', 'axbc')
...: FutureWarning: split() requires a non-empty pattern match.
  return _compile(pattern, flags).split(string, maxsplit)
['a', 'bc']

正常情况下，x* 是能够匹配 0 个 x，无论是在 a 之前，b 和 c 之间还是 c 之后，然而这些都被忽略了。正确的结果应该是形如 ['', 'a', 'b', 'c', '']，但这是一个向后不兼容的更改，所以会有 FutureWarning 警告抛出。

在 Python 3.6 中，空匹配模式还不被允许，强行使用的话，会抛出 ValueError 异常。例如：

>>> re.split("^$", 'foo\n\nbar\n', flags=re.M)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  ...
ValueError: split() requires a non-empty pattern match.

但这部分内容，已经在 3.7 中做出了改动。在 3.8 版本中的文档中，有部分小注：

Changed in version 3.7: Added support of splitting on a pattern that could match an empty string.

这部分内容表明，在 3.7版后 re.split() 已经开始支持空匹配模式。

所以，如果使用 re.split() 空匹配模式的时候，效果未达预期，可以考虑是否是 Python 版本的原因。

以上就是本篇的主要内容