Python 使用界定符分割字符串

使用界定符分割字符串


前言


需求是将字符串分割成多段,但是分隔符(周围的空格)并不固定。

re.split()


普通 string 对象的 split() 方法能够用于字符串分割,但前提是需求相对简单的情况下,因为 string 对象的 split() 方法并不允许有多个分隔符或者分隔符周围有不确定的空格。当需要更加灵活地切割字符的时候,建议使用 re.split() 方法。示例如下:

>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

re.split() 允许为分隔符指定多个正则模式,上面的示例中表示,分隔符可以是分号、逗号或者空格,并且后面紧跟任意空格。只要这个模式被找到,那么匹配的分隔符两边的实体都会别当成是结果中的元素返回。返回结果类型是列表。

maxsplit 和 flags 参数


这里延伸讲下 re.split() 函数的参数,该函数的完整表达形式如下:

re.split(pattern, string, maxsplit=0, flags=0)

  • pattern 就是分割模式;
  • string 就是代表待分割的字符串;
  • maxsplit默认为 0,但如果这个参数非零,函数最多进行 maxsplit 次分割,剩下的字符全部返回到列表的最后一个元素中;
  • flags 参数为可选标记参数,例如 re.M,re.I 等。

实例代码演示 maxsplit 参数的效果

>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']

在第二段代码中,函数只分割了一次,剩余元素都在列表中的最后一个元素中。

下面这段代码是 flags 这个参数的一个应用:

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']
>>> re.split('[a-f]+', '0a3B9', flags=re.I)
['0', '3', '9']

这里指定的标记参数是 re.Ire.IGNORECASE,但是两者的效果等同,这两者的作用是用于在匹配时忽略大小写。

捕获分组


使用 re.split() 函数的时候,还需要注意正则表达式是否包含一个括号的捕获分组,如果在 pattern 中捕获到括号,那么所有被匹配的文本,都会被当成一部分返回在列表里。示例如下:

>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

\W 用于匹配特殊字符,在例子第二段代码中,被匹配的字符,也作为一部分内容返回在列表中。第三段代码,表示的是,分割模式有捕获分组,并且匹配到字符串的开始,那么结果将以一个空字符串开始,对于结尾也一样。

如果不想保留分割字符到结果列表中,但仍然需要使用到括号来分组的情况下,可以用 (?:...) 来表达分组是非捕获组,例如:

>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'(?:\W+)', 'Words, words, words.')
['Words', 'words', 'words', '']

注意事项


本篇文章运行环境中,Python 的版本是 3.6 ,在未升级到 3.7 的版本中, split() 函数并不支持空匹配模式,例如,文档中给出的注解:

Note: split() doesn’t currently split a string on an empty pattern match.

先给出示例代码:

>>> re.split('x*', 'axbc')
...: FutureWarning: split() requires a non-empty pattern match.
  return _compile(pattern, flags).split(string, maxsplit)
['a', 'bc']

正常情况下,x* 是能够匹配 0 个 x,无论是在 a 之前,bc 之间还是 c 之后,然而这些都被忽略了。正确的结果应该是形如 ['', 'a', 'b', 'c', ''],但这是一个向后不兼容的更改,所以会有 FutureWarning 警告抛出。

在 Python 3.6 中,空匹配模式还不被允许,强行使用的话,会抛出 ValueError 异常。例如:

>>> re.split("^$", 'foo\n\nbar\n', flags=re.M)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  ...
ValueError: split() requires a non-empty pattern match.

但这部分内容,已经在 3.7 中做出了改动。在 3.8 版本中的文档中,有部分小注:

Changed in version 3.7: Added support of splitting on a pattern that could match an empty string.

这部分内容表明,在 3.7版后 re.split() 已经开始支持空匹配模式。

所以,如果使用 re.split() 空匹配模式的时候,效果未达预期,可以考虑是否是 Python 版本的原因。

以上就是本篇的主要内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351