正则表达式

正则表达式(Regular Expression)是一种文本模式,使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

它繁琐也强大,几乎所有所有编程语言都支持利用正则表达式进行字符串操作。认真学习,勤动手。加上应用的时候进行一定的参考,掌握正则表达式不是问题。

首先我们用一条正则来举例:
正则中,中括号内的任意字符均视为普通字符, 比如 . * 都被看做是 普通字符。

\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}

语法
元字符

:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}

\w 表示 匹配字母、数字、下划线

它是元字符,除此之外的元字符还有:

字符  描述
\d  匹配一个数字字符。等价于 [0-9]。
\D  匹配一个非数字字符。等价于 [^0-9]。
\w  匹配字母、数字、下划线。等价于'[A-Za-z0-9]'
\W  匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9]'
\s  匹配任何空白字符,包括空格、制表符、换页符
\S  匹配任何非空白字符。等价于 [^ \f\n\r\t\v]
.   匹配除换行符(\n、\r)之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用像"(.
\f  匹配一个换页符。等价于 \x0c 和 \cL
\n  匹配一个换行符。等价于 \x0a 和 \cJ
\r  匹配一个回车符。等价于 \x0d 和 \cM
\t  匹配一个制表符。等价于 \x09 和 \cI
\v  匹配一个垂直制表符。等价于 \x0b 和 \cK
^   匹配输入字符串开始的位置。
$   匹配输入字符串结尾的位置
\b  匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B  与 \b 相反:er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。

有了元字符,我们就可以练些简单的匹配

匹配ing结尾单词:

ing\b

匹配11位数的中国手机号:

1\d\d\d\d\d\d\d\d\d

区间

:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
[-\w.+] 区间,表示 匹配符号 -,或字母、数字、下划线,或符号 . ,或符号 +

除此之外的常见用法还有:

字符 描述

[0-9] 匹配 0-9 之间的数字
[A-Z] 匹配 A-Z 之间的数字,也可以组合 [A-Za-z0-9]

限定符

:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}

* 表示出现,匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"

除此之外的限定符还有:

字符  描述
*   匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}
+   匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}
?   匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o
{n,}    n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'
{n,m}   m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格

有了区间,结合元字符

匹配9位数的QQ邮箱:
[0-9]{9}@qq.com

身份证号:

\d{17}[0-9Xx]|\d{15}

ip地址:

\d{0,3}.\d{0,3}.\d{0,3}.\d{0,3}

普通字符 和 转义

:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}
@ 是普通字符,标识必定会出现的内容。
但由于符号 \.  \(\) 等等在正则是特殊字符,所以需要用转义符 \ 转义
^           行首定位符 ^love 
$           行尾定位符 love$ 
.           匹配单个字符 l..e 
*           匹配前导符 0 到多次 ab*love
.*          任意多个字符
[]          匹配指定范围内的一个字符 [lL]ove
[ - ]       匹配指定范围内的一个字符 [a-z0-9]ove
[^]         匹配不在指定组内的字符 [^a-z0-9]ove
\           用来转义元字符 love\. 
\<          词首定位符 \<love 
\>          词尾定位符 love\> 
\(..\)       匹配稍后使用的字符的标签(只能栝1-9个) :% s/172.16.130.1/172.16.130.5/
            :% s/\(172.16.130.\)1/\15/
            :% s/\(172.\)\(16.\)\(130.\)1/\1\2\35/
            :3,9 s/\(.*\)/#\1/ 
x\{m\}       字符 x 重复出现 m 次 o\{5\} x\{m,\} 字符 x 重复出现 m 次以上 o\{5,\} 
x\{m,n\}     字符 x 重复出现 m 到 n 次 o\{5,10\} 

===扩展正则表达式元字符
+                   匹配一个或多个前导字符 [a-z]+ove 
?                   匹配零个或一个前导字符 lo?ve 
a|b                 匹配 a 或 b love|hate
()                  组字符 loveable|rs love(able|rs) ov+ (ov)+
(..)(..)\1\2        标签匹配字符 (love)able\1er
x{m}                字符 x 重复 m 次 o{5} 
x{m,}               字符 x 重复至少 m 次 o{5,}
x{m,n}              字符 x 重复 m 到 n 次 o{5,10}

正则匹配示例:vim
/love/                    寻找love
/^love/                   love开头
/love$/                   love结尾
/l.ve/                    l 中间有任意一个字符,后面是 ve
/lo*ve/                   o可以出现零次到多次
/[Ll]ove/                 匹配love或Love
/love[a-z]/               love后面有一个任意的小写字母
/love[^a-zA-Z0-9]/        love后面出现的字符不是a-zA-Z0-9中的任意一个字符,可能是特殊字符
/.*/                      整行
/^$/                      空行
/^[A-Z]..$/               开头是大写字母,结尾是两个任意字符
/^[A-Z][a-z]*3[0-5]/      开头是大写字母,后面是0-n个小写字母,然后3,最后是0-5的一个数字
/[a-z]*\./                   前面是0-n个小写字母,后面加一个  .
/^ *[A-Z][a-z][a-z]$/        以0-n个空格开头的,后面是一个大写字母和两个小写字母
/^[A-Za-z]*[^,][A-Za-z]*$/      开头是大写字母或小写字母,后面不能是逗号,结尾是零个或n个大写或小写字母
/\<fourth\>/                    寻找fourth这个单词
/\<f.*th\>/                     寻找f 任意字符 th
/5{2}2{3}\./                    55333.

空行
/^$/                        空行
/^[ \t]*$/                  0-n个空格或tab
注释行
/^#/                        以#开头的行
/^[ \t]*#/                  开头有0-n个空格或tab,后面有#号的行

:1,$ s/\([Oo]ccur\)ence/\1rence/ 
:1,$ s/\(square\) and \(fair\)/\2 and \1/
    hello*          0-n      前一个字符
    hello?          0-1      前一个字符
    hello+          1-n      前一个字符
    hello{2}         2       前一个字符
    
    (hello)*        0-n      前一个字符组
    (hello)?        0-1      前一个字符组
    (hello)+        1-n      前一个字符组
    (hello){2}       2       前一个字符组

[在线正则检测工具] https://tool.lu/regex/ 可以生成各种语言正则匹配的代码

接下来是正则中重要的概念

1. 子表达式

用圆括号组成一个比较复杂的匹配模式,那么一个圆括号的部分我们可以看作是一个子表达式。

举例 s#\(\d\)\([a-z]*\)#\1\2#gi

(\d)就是第一个子表达式
([a-z]) 是第二个子表达式
gi :全局查找,忽略大小写

2. 捕获 & 反捕获
多个子表达式所匹配到的内容按顺序出现在内存的缓冲区中捕获数组,这个我们称为捕获

反捕获 与 捕获相反,标记不需要捕获的内容

反向引用
圆括号的内容被捕获后,可以在这个括号后被使用,从而写出一个比较实用的匹配模式,这个我们称为反向引用
贪婪
贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。
懒惰 / 非贪婪
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。

懒惰量词是在贪婪量词后面加个?

*? 重复多次,但尽可能少重复
+? 重复1次、多次,但尽可能少重复
?? 重复0次、1次,但尽可能少重复
{n,m}? 重复n~m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335