正则表达式学习笔记(一)

参考书籍:《正则指引》(1-3章)


以 Python 语言为学习工具,Python中常用的关于正则表达式的函数是 re.search(),需要引入对应的包

import re

用法:re.search(pattern, string),pattern是字符串形式的正则表达式,string是需要匹配的字符串。


1. 普通字符组

在 pattern 两端加上 ^$,表示“定位到字符串的起始位置” 和 “定位到字符串的结束位置”,字符串前加 r 表示是原生字符串(Python特性)。

re.search(r"[0-9]", "2") != None    # True
re.search(r"^[0-9]$", "a2") != None # False

上边 [0-9] 等价于 [0123456789],类似还有 [a-z][A-Z]。这些字符组可以混写在一起,比如匹配十六进制字符:

re.search(r"^[0-9a-zA-Z]$", "A") != None    # True

上例中 - 不能表示横线字符,包括 [ ] ^ $ 都成为元字符,有特殊的意义,如果要表示字符本身,用到转义字符 \ ,例如 [0\-9] 只表示字符 0-9,当然,如果 - 不在09之间 [-09],就不用加转义字符,使用原则是,只有在表示特殊意义时使用转义字符才有效。
[ 需要转义,但 ] 不需要转义。

排除型字符组

在字符串最前方加脱字符 ^ 表示“在当前位置,匹配一个没有列出的字符”,[^0-9] 就表示0-9之外的字符,不包括空字符。

#匹配一个- 0 9之外的字符
re.search(r"^[^-09]$", "-") != None # True
re.search(r"^[^-09]$", "6") != None # False

字符组简记

\d 等价于 [0-9]

\w 等价于 [0-9a-zA-Z_]

\s 等价于 [ \t\r\n\v\f]

相对于 \d\w\s\D\W\S是对应的排除型字符串。\s 能匹配的,\S 一定不能匹配,其他类似。

有趣的是,字符组 [\s\S] 匹配任意字符。


2. 量词

{m} 来表示匹配的字符重复个数,例如匹配6位邮政编码:

re.search(r"^\d{6}$", "101399") != None # True
re.search(r"^\d{6}$", "1013990") != None    # False
re.search(r"^\d{6}$", "1a1399") != None # False

如果长度不确定,通用形式是 {m,n}需要注意的是:在 , 之后不能加空格!!!!

量词也有简记法,* 等价 {0,}+ 等价 {1,}? 等价 {0,1}

量词 说明
{n} 之前的元素必须出现n次
{m,n} 之前的元素最少出现m次,最多出现n次
{m,} 之前的元素最少出现m次,出现次数无上限
{0,n} 之前的元素可以不出现,也可以出现,最多出现n次

点号

点号 . 可以匹配几乎所有的字符,换行符 \n 除外,如果要匹配所有的字符可以使用单行匹配模式或自制通配字符组:

#单行匹配模式
re.search(r"(?s)^.$", "\n") != None # True
#自制通配字符组
re.search(r"^[\s\S]$", "\n") != None    # True

点号 . 不能滥用,否则会很容易出现意外结果。(P23)
例如,要匹配双引号""字符串,应该使用 "[^"]*",如果图省事使用 ".\*"

#字符串是 "hehehe"
print re.search(r"\".*\"", "\"hehehe\"").group(0)
"hehehe"
#字符串是 "aaa"bbb"
print re.search(r"\".*\"", "\"aaa\"bbb\"").group(0)
"aaa"bbb"

第二个出现错误!

忽略优先量词

<tr>[\s\S]<\tr> 匹配一段字符串中的所有的 <tr></tr>

#字符串是 <tr>aaa</tr> hhh <tr>bbb</tr>
print re.findall(r"<tr>[\s\S]*</tr>", "<tr>aaa</tr> hhhh <tr>bbb</tr>")
['<tr>aaa</tr> hhhh <tr>bbb</tr>']

结果是,匹配了字符串最前的 <tr> 和最后的 </tr>,因为之前的量词都可归类为匹配优先量词(贪婪量词),而我们想要的结果是匹配两个 <tr> </tr>,就用到了忽略优先量词。

[\s\S]* 来说,把 * 改为 *? 就是使用了忽略优先量词:

#字符串是 <tr>aaa</tr> hhh <tr>bbb</tr>
print re.findall(r"<tr>[\s\S]*</tr>", "<tr>aaa</tr> hhhh <tr>bbb</tr>")
['<tr>aaa</tr>', '<tr>bbb</tr>']
匹配优先量词 忽略优先量词
* *?
+ +?
? ??
{m,n} {m,n}?
{m,} {m,}?
{,n} {,n}?

利用匹配优先量词拆解 Linux/Unix 路径 /usr/local/bin/python.py :

print re.search(r"^.*/", "/usr/local/bin/python.py").group(0)
/usr/bin/

print re.search(r"[^//]*$", "/usr/local/bin/python.py").group(0)
python.py

量词的转义

量词 转义形式
{n} {n}
{m,n} {m,n}
{m,} {m,}
* *
+ +
? ?
*? \*?
+? \+?
?? ??

应用:匹配IP地址,匹配模式是 ([0-9]{1,3}\.){3}[0-9]{1,3}

print re.search(r"^([0-9]{1,3}\.){3}[0-9]{1,3}$", "192.10.0.223") != None   # True

3. 括号

3.1 分组

其实,在上文匹配IP地址时,就已经使用了括号,很容易理解,就是把量词的作用范围扩展到括号内的所有表达式,而不仅仅是其前面的单个字符表达式。
例:匹配 E-mail 地址
E-mail由 @ 符号分成左右两部分,左边是用户名,右边是域名。用户名的匹配简单,主要由 [A-Z] [a-z] [0-9] _ . 组成,所以,左边的匹配字符组是 [\w\.]{1,64}
右边的域名有可能是一级域名如 host.com,也有可能是多级域名,总之至少有一级。那么每多出的一级域名是有域名(由 [A-Z] [a-z] [0-9] -组成,可写为 [-\w])和 . 组成,所以匹配字符组为[-\w]{1,63}\.,多出的域名有0个或多个可能,使用量词*限定。所以,完整的匹配表达式是 [\w\.]{1,64}@([-\w]{1,63}\.)*[-\w]{1,63}

re.search(r"^[-\w\.]{1,64}@([-a-zA-Z0-9]{1,63}\.)*[-a-zA-Z0-9]{1,63}$", "makai@ict.ac.cn") != None    #True

3.2 多选结构

多选结构的形式是 (...|...),很好理解。
上文匹配IP的例子其实不准确,因为每一段的数字应该是在0-255之间,例子中如果大于255如998也会被匹配。此问题可以用多选结构解决。
匹配一段数值在0-255之间的文本,分下列几种情况:

说明 匹配
1位数 (00)?[0-9]
2位数 (0)?[0-9]{2}
3位数,第1位是1 1[0-9]{2}
3位数,第1位是2,第2位是0-4 2[0-4][0-9]
3位数,第1位是2,第2位是5 25[0-5]

所以,匹配一段数值在0-255之间的文本,表达式是 ((00)?[0-9]|(0)?[0-9]{2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])
说明

  1. (option1|option2)中如果么有出现括号(),则将整个表达式视为一个多选结构,所以ab|cd 等价于 (ab|cd)。但尽量还是加上括号(),以防意外。
  2. 尽量不要出现既匹配 option1 又匹配 option2 的表达式。

3.3 引用分组

引用分组的作用是方便通过编号num的形式获取对应分组匹配的文本。
例如,诸如 205-04-28 这类表示日期的字符串,希望提取其中的年月日。

print re.search(r"(\d{4})-(\d{2})-(\d{2})", "2015-04-28").group(1)    # 2015
print re.search(r"(\d{4})-(\d{2})-(\d{2})", "2015-04-28").group(2)    # 04
print re.search(r"(\d{4})-(\d{2})-(\d{2})", "2015-04-28").group(3)    # 28

分组从1开始。分组0默认代表整个表达式匹配的文本。即:

print re.search(r"(\d{4})-(\d{2})-(\d{2})", "2015-04-28").group(0)    # 2015-04-28

如果存在括号的嵌套,编号的原则是:无论括号如何嵌套,分组的编号都是根据开括号出现顺序来基数;开括号是从左向右数第多少个开括号,整个括号分组的编号就是多少。

3.3.1 反向引用

形式:()\num ,num 表示所引用分组的编号
注意括号()不是一定与 \num挨着。

re.search(r"^([a-z])\1$", "aa") != None     # True
re.search(r"^([a-z])\1$", "ab") != None     # False

应用:可在解析HTML代码中匹配tag。比如匹配<bold class="class1">text</bold><h1>title</h1>中的内容。<(a-zA-Z0-9+)(\s[^>]+)?>[\s\S]*?</\1>

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容