使用RE库

RE库是python标准库,主要用于字符串匹配。

re库采用raw string类型。书写格式为r'text'

原生字符串,是不包含转义符的字符串。如果直接使用string 类型表示正则,则需要转义掉转义符。因此直接使用原生字符串较为简单。

RE 的主要函数

re.search() #在字符串中搜索和正则匹配的第一个位置。
re.match() #从字符串开始位置起匹配。
re.findall() #搜索字符串,以列表返回全部匹配的子串。
re.split() #将一个字符串正则匹配结果进行分割,返回一个列表。
re.finditer() #搜索字符串,返回迭代类型,每个迭代元素都是一个match对象。
re.sub() #在一个字符串中替换所以匹配正则的子串,返回替代后的。

re.search

re.search(pattern, string, flags = 0)
利用正则pattern 匹配string,同时利用flags 控制查找。

其中的flags,表示正则表达式使用的控制标记。常用标记包括:

re.I #re.IGNORECASE,忽略正则的大小写区分,[A-Z]可以匹配大小写字母。
re.M #re.MULTILINE,可以使^ 能够匹配给定字符串每行的开始部分。
re.S #re.DOTALL,可以使. 匹配所有的字符,包括默认下无法匹配的换行符。

尝试一下

>>> import re
>>> match = re.search(r'[1-9]\d{5}', 'AHAU 200036')
>>> if match:
...     print(match.group(0))
... 
200036

re.match

re.match(pattern, string, flags = 0)
参数和search 一样。

需要注意的是,如果是使用match,会从字符串的起始部分进行匹配。因此若不进行调整,即依旧为'AHAU 200036',match 则匹配不到。

>>> import re
>>> match = re.match(r'[1-9]\d{5}', '200036 AHAU')
>>> if match:
...     print(match.group(0))
... 
200036

re.findall

以列表返回全部匹配到的子串。

>>> match = re.findall(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> if match:
...     print(match)
... 
['200036', '100084']

re.split

将正则与字符串匹配的部分删除,并将剩下内容进行分割。
re.match(pattern, string, maxsplit = 0, flags = 0)
maxsplit 表示最大分割数(识别并进行切割的最大数字),超过最大分割部分以整体输出。

>>> re.split(r'[1-9]\d{5}', 'AHAU200036 TSU100084')
['AHAU', ' TSU', '']

增加maxsplit参数,只匹配并切割一次,剩下的部分以整体输出。

>>> re.split(r'[1-9]\d{5}', 'AHAU200036 TSU100084', maxsplit = 1)
['AHAU', ' TSU100084']

re.finditer

迭代获得每次匹配结果,返回一个match类型。

>>> for m in re.finditer(r'[1-9]\d{5}', 'AHAU200036 TSU100084'):
...     if m:
...             print(m.group(0))
... 
200036
100084

re.sub

re.sub(pattern, repl, string, count = 0, flags = 0)
repl 表示替换匹配字符串的字符串
count 表示匹配的最大替换次数。(和maxsplit 的功能差不多)

>>> re.sub(r'[1-9]\d{5}', 'unknown', 'AHAU:200036 TSU:100084')
'AHAU:unknown TSU:unknown'

可以加一个count 参数

>>> re.sub(r'[1-9]\d{5}', 'unknown', 'AHAU:200036 TSU:100084', count = 1)
'AHAU:unknown TSU:100084'

re 的其他用法

对于一套正则表达式的多次使用,如果每一次都重新定义一遍pattern,未免显得非常的繁琐。我们可以使用一种面向对象的做法。

先讲正则经过一次编译,将正则的原生字符串编译为一个正则表达式对象。

import re
zcode = re.complie(r'[1-9]\d{5}')
match = zcode.match('200036 AHAU')
search = zcode.search('TSU 100084')

而它的使用,也和基本使用是一摸一样的。


详谈RE库的match 对象

match 对象是search, match, finditer 这些方法返回的结果。

>>> match = re.search(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> match.group(0)
'200036'
>>> match
<re.Match object; span=(0, 6), match='200036'>
>>> type(match)
<class 're.Match'>

match对象的属性

.string #待匹配的文本
.re #匹配时使用pattern对象(正则)
.pos #正则表达式搜索文本开始
.endpos #正则表达式搜索文本末尾
>>> m = re.search(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> m.string
'200036AHAU TSU100084 345'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
24

match 对象的方法

.group(0) #获得匹配后字符串
.start() #匹配字符串在原始字符串的开始位置
.end() #匹配字符串在原始字符串的结束位置
.span() #返回元组类型,包含start与end
>>> m.group(0)
'200036'
>>> m.start()
0
>>> m.end()
6
>>> m.span()
(0, 6)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352