如何优雅的使用正则表达式(讲解六)

修改字符串

我们已经介绍完如何对字符进行搜索,接下来我们讲讲正则表达式如何修改字符串。

正则表达式使用以下方法修改字符串:

方法用途

split()在正则表达式匹配的地方进行分割,并返回一个列表

sub()找到所有匹配的子字符串,并替换为新的内容

subn()跟 sub() 干一样的勾当,但返回新的字符串以及替换的数目

分割字符串

正则表达式的 split() 方法将字符串在匹配的地方进行分割,并将分割后的结果作为列表返回。它的做法其实很像字符串的 split() 方法,但这个可以使用更加广泛的分隔符。你猜的没错,它同时提供了一个模块级别的函数:re.split()

.split(string[, maxsplit=0])

通过正则表达式匹配来分割字符串。如果在 RE 中,你使用了捕获组,那么它们的内容会作为一个列表返回。你可以通过传入一个 maxsplit 参数来设置分割的数量。如果 maxsplit 的值是非 0,表示至多有 maxsplit 个分割会被处理,剩下的内容作为列表的最后一个元素返回。

下边例子中,分隔符是任何非字母数字字符:

>>> p = re.compile(r'\W+')

>>> p.split('This is a test, short and sweet, of split().')

['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']

>>> p.split('This is a test, short and sweet, of split().', 3)

['This', 'is', 'a', 'test, short and sweet, of split().']

复制代码

有时候你可能不仅对分隔符之间的内容感兴趣,你可能对分隔符本身(就是正则表达式匹配的内容)也同样感兴趣。如果使用了捕获组,那么作为分隔符的值也会被返回:

>>> p = re.compile(r'\W+')

>>> p2 = re.compile(r'(\W+)')

>>> p.split('This... is a test.')

['This', 'is', 'a', 'test', '']

>>> p2.split('This... is a test.')

['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']

复制代码

模块级别的函数 re.split() 除了将 RE 作为第一个参数外,其他参数是一样的:

>>> re.split('[\W]+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split('([\W]+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split('[\W]+', 'Words, words, words.', 1)

['Words', 'words, words.']

复制代码

搜索和替换

另一个常见的任务就是找到所有的匹配部分,并替换成不同的字符串。sub 方法可以帮你实现这个愿望!sub 方法有一个 replacement 参数,它可以是一个待替换的字符串,或者一个处理字符串的函数。

.sub(replacementstring[, count=0])

返回一个字符串,这个字符串从最左边开始,所有 RE 匹配的地方都替换成 replacement。如果没有找到任何匹配,那么返回原字符串。

可选参数 count 指定最多替换的次数,必须是一个非负值。默认值是 0,意思是替换所有找到的匹配。

下边是使用 sub() 方法的例子,它会将所有的颜色替换成 color:

>>> p = re.compile( '(blue|white|red)')

>>> p.sub( 'colour', 'blue socks and red shoes')

'colour socks and colour shoes'

>>> p.sub( 'colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

复制代码

subn() 方法跟 sub() 方法干同样的勾当,但区别是返回值为一个包含有两个元素的元组:一个是替换后的字符串,一个是替换的数目。

>>> p = re.compile( '(blue|white|red)')

>>> p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

>>> p.subn( 'colour', 'no colours at all')

('no colours at all', 0)

复制代码

空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉:

>>> p = re.compile('x*')

>>> p.sub('-', 'abxd')

'-a-b-d-'

复制代码

如果 replacement 参数是一个字符串,那么里边的反斜杠都会被处理。比如 \n 将会被转换成一个换行符,\r 转换成回车,等等。未知的转义如 \j 保持原样。逆向引用如 \6,则被 RE 中相应的捕获组匹配的内容所替换。这使你可以在替换后的字符串中插入一部分原字符串。

下边例子中,将匹配被 { 和 } 括起来的单词 section,并将 section 替换成 subsection:

>>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)

>>> p.sub(r'subsection{\1}','section{First} section{second}')

'subsection{First} subsection{second}'

复制代码

小甲鱼解释:1. 大家还记得吗?这里开启了 re.VERBOSE,空格将被忽略。因为这里一堆符号,用空格隔开看着才不会乱糟糟的......2. 这里 r'subsection{\1}' 使用 \1 引用匹配模式中的 ([^}]*) 匹配的字符串内容。

还可以使用 Python 的扩展语法 (?P<name>...) 指定命名组,引用命名组的语法是 \g<name>。\g<name> 会将名字为 name 的组匹配的字符串替换进去。另外,\g<数字> 是通过组的序号进行引用。\g<2> 其实就相当于 \2,但我们更提倡使用 \g<2>,因为这样可以避免歧义。例如,\g<2>0 的含义是引用序号为 2 的组,然后后边匹配一个字符 '0',而你写成 \20 就会被认为是引用序号为 20 的组了。

>>> p = re.compile('section{ (?P [^}]* ) }', re.VERBOSE)

>>> p.sub(r'subsection{\1}','section{First}')

'subsection{First}'

>>> p.sub(r'subsection{\g<1>}','section{First}')

'subsection{First}'

>>> p.sub(r'subsection{\g}','section{First}')

'subsection{First}'

复制代码

有时候你可能不满足简单的字符串替换,你可能需要在替换的过程中动点“手脚”......没关系,一样可以满足你!replacement 参数还可以是一个函数,该函数将会在正则表达式模式每次不重复匹配的时候被调用。在每次调用时,函数会收到一个匹配对象的参数,因此你就可以利用这个对象去计算出新的字符串并返回它。

下边的例子中,替换函数将十进制数替换为十六进制数:

>>> def hexrepl(match):

...     "Return the hex string for a decimal number"

...     value = int(match.group())

...     return hex(value)

...

>>> p = re.compile(r'\d+')

>>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

复制代码

当使用模块级的 re.sub() 函数时,正则表达式模式作为第一个参数。该模式可以是一个字符串或一个编译好的对象。如果你需要指定正则表达式标志,那么你必须使用后者;或者使用模式内嵌修正器,例如 sub("(?i)b+", "x", "bbbb BBBB") 返回 'x x'。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • “哈哈哈哈,不要到时候又让家里给你打钱过来…哈哈哈哈 *&¥#€%¥£ …哈哈哈哈 …… ”记不清具体是什么内容了...
    固执的木子阅读 350评论 0 0
  • 二二、墨子与公孟子的故事 儒家弟子公孟子找墨子辩论说:“君子拱手而等待。问就说,不问就不说。就好像钟一样,敲就响,...
    张天铎阅读 384评论 0 0
  • 老屋相伴滋味长 老屋: 许久未见,你还好吗? 曾经,那个最熟悉、最亲切的地方,...
    小鹿麻嘛阅读 393评论 0 0