一文弄懂正则表达式

前言

如果说什么是我学习编程来最好用,最常用的知识点,那应该就是正则表达式了。严谨的说,正则表达式并不是一门编程语言,也不是为了一种编程语言而服务的知识。但他确实足够好用,应用也足够广泛。

例如可以在文本中提取规则的电话号码,电子邮箱。
在office中的通配符也是正则表达式哦,这样在office中做规则的搜索和替换,也是能极高的提升工作效率。

正则表达式在爬虫中也经常使用到,例如只需要简单的几行代码,就可以获取h1标签下的所有内容。

import re
html = '''
<h1> test1 </h1>
<h1> test2 </h1>
<h1> test3 </h1>
'''
content = re.findall('<h1>(.*?)</h1>', html)
print(content)

#result [' test1 ', ' test2 ', ' test3 ']

那正则表达式到底是什么,又该如何使用,为什么我们爬虫中老是使用(.*?),它到底起到了什么作用,这篇文章就详细告诉你。

什么是正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),听起来确实不是很好理解。

我们从这个定义中抽出三个关键词:

  • 字符串:这个定义了使用的对象,也就是文本。
  • 匹配:定义了用途,用于查找定位。
  • 模式:模式其实就是规则,这就是正则表达式的核心,这里的规则是人为定义好的,可以是字符,数字和字母。

所以用大白话来说,正则表达式就是一些人为定义的规则,进行组合,使其具有快速匹配字符串的功能。

元字符

前面说到正则表达式就是一些定义好的规则的组合,这个规则背后就是元字符。

元字符有很多,我们按用途将他们分为5类,便于理解和使用。

  • 集合:[ ]
  • 次数:表示次数:* + ? {}
  • 并列:|
  • 提取:()
  • 特定意义符号:. ^ $ \b\B

本篇文章的实例都在该网站上在线验证:https://regex101.com/
(1)集合([ ])
[ ]表示匹配所包含的任意一个字符,例如[Pp]ython,就能匹配Python和python。

在集合中使用-,可以匹配一个范围内的字符,例如[a-z]可以匹配a到z任意一个字符。

使用 ^ 可以匹配补集,例如[^p]ython,就能匹配除了p之外的字符。

(2)次数字符
上面的正则表达式只能匹配一个字符,这时你就需要次数相关的字符。

  • * 表示后面可跟 0 个或多个字符
  • + 表示后面可跟 1 个或多个字符
  • ? 表示后面可跟 0 个或 1 个字符
  • {n,m}表示后面可跟n到m个字符

例如,匹配11个字符的电话号码。


这个使用方法很简单,大家多练习使用即可。但这里有一个很重要的知识点需要和大家讲解下。那就是贪婪模式和非贪婪模式。

以*为例,它可以匹配0个或多个字符,那到底是匹配多少个字符了?贪婪模式就是保证匹配成功的情况下,尽可能多的匹配,非贪婪模式则反之。默认情况下是贪婪模式,如果需要切换为非贪婪模式,就需要在*后面加上?号。

以<h1>test</h1>为例,如果我们使用<.*>,就会匹配到<h1>test</h1>(.是匹配除换行符之外的任何单个字符)。

如果使用<.*?>,就会匹配到<h1>和</h1>。

(3)并列(|)
并列字符很好理解,当需要匹配两个字符中的一个的时候,就用|。A|B,匹配到了A,就不会查找B。

这里就是匹配到的就是c或者是python。

(4)提取()
如果需要把匹配的字符串提取出来,就需要使用小括号。这主要使用在编程中,对数据的提取。正如前面的爬虫代码,用上括号后,就能将h1标签中的内容提取出来。

import re
html = '''
<h1> test1 </h1>
<h1> test2 </h1>
<h1> test3 </h1>
'''
content = re.findall('<h1>(.*?)</h1>', html)
print(content)

#result [' test1 ', ' test2 ', ' test3 ']

在 () 中最前面加入 ?:,代表只匹配不获取(non-capturing)。

import re
html = '''
<h1> test1 </h1>
<h1> test2 </h1>
<h1> test3 </h1>
'''
content = re.findall('<h1>(?:.*?)</h1>', html)
print(content)

#result ['<h1> test1 </h1>', '<h1> test2 </h1>', '<h1> test3 </h1>']

其实这里的?:是是非捕获元之一,还有两个非捕获元是 ?= 和 ?!,前者为正向预查,后者为负向预查。这两个又衍生出?<=和?<!。接下来我们就看看他们的具体使用方法吧。

A(?=B),匹配符合B条件的A;(?<=B)A,匹配符合B条件的A。前者是匹配的是括号前面的,后者匹配的是后面的。

windows(?=7|xp|2000|10),能匹配windows7,windowsxp,windows2000,windows10前的windows。

A(?!B),匹配不符合B条件的A;(?<!B)A,匹配不符合B条件的A。前者是匹配的是括号前面的,后者匹配的是后面的。

(5)特定意义符号
就是说固定的写法来代表特定的意义,例如\d代表的就是匹配一个数字字符,等同于[0-9]。

以下就是常用的特定意义符号:

字符串 含义
^ 匹配输入字符串的开始位置。
$ 匹配输入字符串的结束位置。
. 匹配除换行符(\n、\r)之外的任何单个字符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\f 匹配一个换页符。
\n 匹配一个换行符
\r 匹配一个回车符。
\t 匹配一个制表符。
\v 匹配一个垂直制表符。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w 匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'。
\W 匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'。

\为转义字符,例如\*,就可以匹配*本身。

修饰符(可选标记)

学完前面的元字符后,就算是完成了大部分正则表达式的知识点了,也能独立使用正则表达式来完成日常工作了。之前的截图中,可以看到gm,他们其实是修饰符。

修饰符不写在正则表达式里,标记位于表达式之外,我们来看下他们代表的意义。

修饰符 含义 具体解释
i ignore 匹配时不区分大写小
g global 全局匹配,查找所有的匹配项。
m multi line 多行匹配,使边界字符 ^ 和 $ 匹配每一行的开头和结尾。
s 特殊字符圆点 . 中包含换行符 \n 默认情况下的圆点 . 是 匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

这期分享都到这了,下期我们讲正则表达式在日常工作中的使用案例。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容