正则表达式学习

学习笔记来源

什么是正则表达式

正则表达式是表示搜索模式的字符串,常缩写成 Regex 或 Regexp。它常用于查找和替换文本中的字词。此外,我们可以测试文本是否符合我们设置的规则。
例如,您只想查找文件名列表中,扩展名是 pdf 的文件,那您只需跟着输入 ^\w+.pdf$ 就可以找到。随着课程的进行,表达式的含义会变得更加清晰。

正则表达式
  • 基本匹配
  1. 例如要找出文本中的curious一词,只需要输入同样的内容,/curious/。


    /curious/
  2. "."字符:允许匹配任何字符,包括特殊字符和空格


    "."字符
  3. 字符集[a-z]:例如,为了查找文本中的所有单词,我们需要编写表达式,在 [] 中相邻地输入字符 a、e、i、o、u。

[a-z]中括号内任取
[aeiou]只取特定字符
[^eo]不取特定字符
[3-9]数字同理
  • 重复

一些特殊字符用来指定一个字符在文本中重复的次数。它们分别是加号 +、星号 * 和问号 ?。

  1. "*"星号字符:我们在字符后面加上 *,表示一个字符完全不匹配或可以匹配多次。例如,表示字母 e 在下方文本中不出现,只出现 1 次或者并排出现多次。
*号字符
  1. "+"加号字符:为了表示一个字符可以出现一次或多次,我们将 + 放在它后面。例如,表示 e 在下方文本中出现一次或多次。


    +号字符
  2. "?"号字符:为了表示一个字符出现零次或一次,我们在它后面加一个 ?。例如,表示下方文本中的字母 u 是可选的。

?号字符
  1. "{}"大括号字符: 为了表示一个字符出现的确切次数,我们在该字符的末尾,将它出现的次数写进大括号 {} 中,如 {n}。例如,表示下方文本中的字母 e 只能出现 2 次。
{}大括号字符

为了表示一个字符至少出现多少次,我们在该字符的末尾,将它至少应出现的次数写进大括号 {} 中,并在数字后面加上逗号 ,,如 {n, }。例如,表示下方文本中的字母 e 至少出现 3 次。

{}大括号中加入逗号
  • ()分组
  1. 我们可以对一个表达式进行分组,并用这些分组来引用或执行一些规则。为了给表达式分组,我们需要将文本包裹在 () 中。现在,请尝试为下方文本中的 haa 构造分组
()括号分组
  1. 分组引用:单词 ha 和 haa 分组如下。第一组用 \1 来避免重复书写。这里的 1 表示分组的顺序。请在表达式的末尾键入 \2 以引用第二组。
""反斜杠引用分组

您可以对表达式进行分组,并确保它不被引用捕获。例如,下面有两个分组,但我们用 \1 引用的第一个组实际上是指向第二个组,因为第一个是未被捕获的分组。

"(?:)"非捕获分组
  1. "|"竖线允许一个表达式包含多个不同的分支。所有分支用 | 分隔。和在字符层面上运作的字符集 [abc] 不同,分支在表达式层面上运作。
"|"竖线符号
  1. ""转义字符: 在书写正则表达式时,我们会用到 { } [ ] / \ + * . $^ | ? 这些特殊字符 。为了匹配这些特殊字符本身,我们需要通过 \ 将它们转义。
""转义字符
  1. "^"插入符 :匹配字符串的开始。
"^"插入符
  1. "$":匹配字符串结尾
"$"匹配字符串结尾
  1. "\w"与"\W" : 表达式 \w 用于查找字母、数字和下划线。表达式"\W"用于查找非字母、数字下划线
"\w"
"\W"
  1. "\d"与"\D":"\d"仅用来匹配数字,"\D"用来匹配非数字
"\d"
"\D"

9."\s"与"\S":"\s"用来匹配空白字符,"\S"用来匹配非空白字符

"\s"
"\S"
  • 零宽断言

如果我们希望正在写的词语出现在另一个词语之前或之后,我们需要使用「零宽断言」。

  1. 正向先行断言: (?=)

例如,我们要匹配文本中的小时值。为了只匹配后面有 PM 的数值,我们需要在表达式后面使用正向先行断言 (?=),并在括号内的 = 后面添加 PM。

正向先行断言
  1. 负向先行断言: (?!)

例如,我们要在文本中匹配除小时值以外的数字。我们需要在表达式后面使用负向先行断言 (?!),并在括号内的 ! 后面添加 PM,从而只匹配没有 PM 的数值。

负向先行断言
  1. 正向后行断言: (?<=)

例如,我们要在文本中匹配金额数。我们需要在表达式前面使用正向后行断言 (?<=),并在括号内 后面添加 $,从而只匹配前面有$ 的数值。

正向后行断言
  1. 负向后行断言: (?<!)

例如,我们要在文本中匹配除价格外的数字。为了只匹配前面没有$ 的数字,我们要在表达式前用负向后行断言 (?<!),并在括号内的 ! 后面添加 $。

负向后行断言
  • 标志

标志改变表达式的输出。这就是标志也称为 修饰符 的原因。标志决定表达式是否将文本视作单独的行处理,是否区分大小写,或者是否查找所有匹配项。

  1. "/g"全局标志:全局标志使表达式选中所有匹配项,如果不启用全局标志,那么表达式只会匹配第一个匹配项。
全局标志
  1. "/m"多行标志:正则表达式将所有文本视作一行。但如果我们使用了多行标志,它就会单独处理每一行。
多行标志
  1. "/i"忽略大小写标志:为了使我们编写的表达式不再大小写敏感,我们必须启用 不区分大小写 标志。
忽略大小写标志
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容