Re(正则表达式)库

1 正则表达式的概念

[regular expression, regex, RE],正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑。正则表达式语法由字符和操作符构成。

  • 正则表达式是用来简洁表达一组字符串的表达式
  • 正则表达式是一种通用的字符串表达框架
  • 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
  • 正则表达式可以用来判断某字符串的特征归属

正则表达式的用途

正则表达式在文本处理中十分常用, 最主要应用在字符串匹配中
a)表达文本类型的特征(病毒、入侵等)
b)同时查找或替换一组字符串
c)匹配字符串的全部或部分

2 正则表达式的语法

正则表达式的常用操作符

正则表达式语法实例

经典正则表达式实例:

^[A-Za-z]+$                         由26个字母组成的字符串
^[A-Za-z0-9]+&                      由26个字母和数字组成的字符串
^-?\d+$                             整数形式的字符串
^[0-9]*[1-9][0-9]*$                 正整数形式的字符串
[1-9] \d{5}                         中国境内邮政编码,6位
[\u4e00-\u9fa5]                     匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7}             国内电话号码
匹配IP地址的正则表达式(IP地址分为4段,每段0~255)
0 – 99:[1-9]?d                      100 – 199:1\d{2}
200 – 249:2[0-4] \d                 250 – 255:25[0-5]
(([1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5] ).) {3} ( [1-9]? \d | 1\d{2} | 2[0-4] \d | 25[0-5])

3 Re库的基本使用

Re 库是 Python 的标准库,主要用于字符串匹配
调用方式:import re
raw string 类型(原生字符串类型)
 re 库采用 raw string 类型表示正则表达式,表示为 r’text’
 例如:r’[1-9]\d{5}’
    r’ \d{3}- \d{8}| \d{4}- \d{7}’
 raw string 是不包含转义符的字符串
string 类型,更繁琐。
 例如:’[1-9] \\d{5}’
    ’\\d{3}-\\d{8}| \\{4}-\\d{7}’
建议:当正则表达式包含转义符时,使用 raw string

Re库主要功能函数

re.search(pattern, string, flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记
re.match(pattern, string, flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串 -flags:正则表达式使用时的控制标记

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 None。re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,而 re.search 匹配整个字符串,直到找到一个匹配。

re.findall(pattern, string, flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串 -f1ags:正则表达式使用时的控制标记

注意:match 和 search 是匹配一次,findall 匹配所有。

re.split(pattern, string, maxsplit = 0, flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串
  • maxsplit:最大分割数,剩余部分作为最后一个元素输出
  • flags:正则表达式使用时的控制标记
re.finditer(pattern, string, flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串 -f1ags:正则表达式使用时的控制标记
re.sub(pattern, repl, string, count=0,flags = 0)
  • pattern:正则表达式的字符串或原生字符串表示
  • repl:替换匹配字符串的字符串
  • string:待匹配字符串
  • count:匹配的最大替换次数
  • flags:正则表达式使用时的控制标记

Re 库的另一种等价用法

regex = re.compile(pattern, flags = 0)

将正则表达式的字符串形式编译成正则表达式对象

  • pattern:正则表达式的字符串或原生字符串表示
  • flags:正则表达式使用时的控制标记
# Compile a regular expression pattern, returning a pattern object.

从 compile() 函数的定义中,可以看出返回的是一个匹配对象,它单独使用没有任何意义,需要和 re 库的其它方法搭配使用。以 search 为例,利用 compile 函数可以不需要再调用 re.search(),而可以直接regex.search()。compile 函数用于编译正则表达式,生成一个正则表达式(Pattern)对象

4 Re 库的 Match 对象

Match 对象是一次匹配的结果,包含匹配的很多信息。

Match对象的方法

5 Re库的贪婪匹配和最小匹配

同时匹配长短不同的多项,返回哪一个呢?

Re库默认采用贪婪匹配,即输出匹配最长的子串。

如何输出最短的子串呢?

最小匹配操作符

只要长度输出可能不同的,都可以通过在操作符后增加 ? 变成最小匹配。


正则表达式相关补充
(1)数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串。Python 里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式 ”ab*” 如果用于查找 ”abbbc”,将找到 ”abbb”。而如果使用非贪婪的数量 词 ”ab*?”,将找到 ”a”。注:我们一般使用非贪婪模式来提取。

(2)反斜杠问题
与大多数编程语言相同,正则表达式里使用 ”\” 作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符 ” \”,那么使用编程语言表示的正则表达式里将需要 4 个反斜杠 ” \\\\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python 里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用 r” \\” 表示。同样,匹配一个数字的 ”\\d” 可以写成 r”\d”。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容