正则表达式

【目录】
一、元字符
二、字符转义
三、重复
四、字符类
五、分枝条件
六、分组
七、反义
八、后向引用
九、零宽断言
十、负向零宽断言
十一、贪婪与懒惰

【正文】

什么是正则表达式?

简单来讲的话正则表达式就是记录文本规则的代码。

一、元字符

举例 :

  • 匹配以字母a开头的单词 : \ba\w*\b
  • 匹配1个或更多连续的数字:\d+
  • 匹配刚好6个字符的单词:\b\w{6}\b
  • 填写的QQ号必须为5位到12位数字:^\d{5,12}$
二、字符转义

如果你想查找元字符本身的话,可以使用.和*
例如:deerchao.cn匹配deerchao.cn,C:\Windows匹配C:\Windows

三、重复

你已经看过了前面的,+,{2},{5,12} 这几个匹配重复的方式了。下面是正则表达式中所有的限定符(指定数量的代码,例如*,{5,12}等)

举例 :

  • 匹配Windows后面跟1个或更多数字: Windows\d+
  • 匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置) : ^\w+
四、字符类

匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办?
只需要在方括号里列出它们就行。我们也可以轻松地指定一个字符范围,像[0-9]代表的含意与\d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)

举例 :

  • [aeiou] : 匹配任何一个英文元音字母
  • [.?!] : 匹配标点符号(.或?或!)
  • (?0\d{2}[) -]?\d{8} : 匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678等

针对第三个例子我们对它进行一些分析:
1、首先是一个转义字符: (
2、它能出现0次或1次: (?)
3、然后是一个0
4、后面跟着2个数字: (\d{2})
5、然后是)或-或空格中的一个
6、它出现1次或不出现: (?)
7、最后是8个数字: (\d{8})。

五、分枝条件

正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开。看例子:

  • 0\d{2}-\d{8}|0\d{3}-\d{7} : 匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)
  • (0\d{2})[- ]?\d{8}|0\d{2}[- ]?\d{8} : 匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔
  • \d{5}-\d{4}|\d{5} : 匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字
    (注意:使用分枝条件时,要注意各个条件的顺序。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。)
六、分组

我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了
例如 :

  • (\d{1,3}.){3}\d{1,3}是一个简单的IP地址匹配表达式

分析 :
1、\d{1,3}匹配1到3位的数字
2、(\d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次
3、最后再加上一个一到三位的数字(\d{1,3})

(描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。)

七、反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。

举例 :

  • \S+ : 匹配不包含空白符的字符串
  • <a[^>]+> : 匹配用尖括号括起来的以a开头的字符串
八、后向引用

后向引用用于重复搜索前面某个分组匹配的文本

九、零宽断言

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。
举例 :
1、 (?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp

  • \b\w+(?=ing\b) : 匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc

2、(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp

  • (?<=\bre)\w+\b : 匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading
十、负向零宽断言

负向零宽断言只匹配一个位置,并不消费任何字符。

1、零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp

  • \d{3}(?!\d) : 匹配三位数字,而且这三位数字的后面不能是数字
  • \b((?!abc)\w)+\b : 匹配不包含连续字符串abc的单词

2、零宽度负回顾后发断言(?<!exp),断言此位置的前面不能匹配表达式exp

  • (?<![a-z])\d{7} : 匹配前面不是小写字母的七位数字
十一、贪婪与懒惰

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。


  • a.*?b : 匹配最短的,以a开始,以b结束的字符串

参考链接:https://deerchao.cn/tutorials/regex/regex.htm

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354

推荐阅读更多精彩内容

  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,145评论 0 9
  • 注:本篇文章只为方便查看,特此保留,如有冒犯,敬请谅解!!! 本文目标 30分钟内让你明白正则表达式是什么,并对它...
    阿杰Alex阅读 1,483评论 0 10
  • 版本:v2.3.5 (2017-6-12) 作者:deerchao 转载请注明来源 目录 跳过目录 本文目标 如何...
    readilen阅读 960评论 2 13
  • 教程地址:http://deerchao.net/tutorials/regex/regex.htm#missio...
    金星show阅读 2,653评论 0 0
  • 其实我很多都不懂,就是在我19岁的时候我女朋友背叛我,出去找了一个男的,然后我们分手了,我当时很相死,还好有几个朋...
    故人不顾阅读 206评论 0 0