正则表达式

正则表达式符号(元字符)

'.':通配符。默认匹配除了'\n'以外的任意一个字符(包括字母、符号与数字)。若指定flag DOTALL,则匹配任意字符包括换行。

'^':匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)

'$':匹配字符结尾。

'[]':匹配中括号中的一个字符

'?':匹配前一个字符0或1次

'*':匹配*号前的字符0次或多次

'+':匹配+号前一个字符1次或多次

'{m}':匹配前一个字符m次

'{m,n}':匹配前一个字符m到n次

'|':匹配|左或|右的字符

'(exp)':分组匹配, 括号内就是一个分组,组号从1开始。\1

'(?:exp)':取消括号内分组,没有分组号。

'\A':只从字符开头匹配

'\Z':匹配字符结尾。

'\d':匹配数字0-9

'\D':匹配非数字

'\w':只匹配[A-Za-z0-9]

'\W':只匹配非[A-Za-z0-9]

'\s':匹配空白字符、\t、\n、\r

'\b':捕捉与特殊字符之间的边界,如re.findall(r'a\b', 'a$')

'*?,+?,??':则是取消贪婪模式,尽量匹配最少的。例如re.findall('<.*?>', 'sdfs')

'(?P<name>exp)':分组匹配,并将<>内的内容作为key,然后与匹配项组成字典,通过key取得匹配的内容。例:a = re.search("(?P[0-9]+)(?P[a-zA-Z]+)",'sdf33232sdf')    a.group('id', 'name')

'(?=exp)':正预测先行断言:表示匹配项后必须是满足exp条件。注意:断言不是分组,所以没有分组号。例:d = "wood boost foo "; re.findall("f(?=ood)", d)

'(?<=exp)':正回顾后发断言:表示匹配项前需要满足exp条件。例:d = "wood boost foo "; re.findall("(?<=w)ood", d)

'(?!exp)':负预测先行断言。表示匹配项后必须不是exp条件。例:d = "123456 "; re.findall("\d{3}(?!\d)", d)


匹配字符串的常用方法

match方法

从头至尾匹配字符,匹配严格

re.match(a,b)

a参数为匹配条件(正则表达式符号);b参数为要匹配字符串

re.match('dsf\d+','dsf1221sdf')


search方法

从头到尾匹配一次,只要匹配到就返回。

re.search(a,b)

a参数为匹配条件(正则表达式符号);b参数为要匹配字符串

例:

a = re.search('\d','sdf123dser')

print(a.group())


findall方法

匹配多次,直到找到所有匹配。并以列表输出。

urls2 = '''https://www.jianshu.com

https://www.baidu.com'''

data3 = re.findall("^(?:http|https).*", urls2, flags=re.M)

print("3: \033[31;1m{}\033[0m\n".format(data3))


finditer方法

返回迭代器,且里面的元素为match对象。使用循环遍历或next取出元素(惰性求值),然后对元素用groups,取分组。


compile方法

words = "Hello world "

cp = re.compile("[a-z]+")

cp.search(words, 2,10)  # 限定匹配区间


split方法

匹配并分割

re.split('分隔字符/规则','分割对象')

例re.split('e','sdfesdfe223')


sub方法

匹配并替换

re.sub("匹配内容","替换内容","匹配对象",count=N)

N为从开头到结尾匹配次数

re.sub('[0-9]+',' ','sdf234dsf34csdfs234sdf',count=1)


subn方法

匹配并替换,最后返回结果与替换次数

re.subn("匹配内容","替换内容","匹配对象",count=N)


flags参数(模式修正符)

re.I:忽略大小写

例:re.search('[a-z]+','sdfASDSAfgds',flags=re.I)

re.M:多行匹配。如果有托字符^或$,则影响每行(行首、行尾)。

re.L:本地化识别匹配。

re.U:根据unicode字符来解析。

re.S:单行匹配:使'.'可以匹配换行符:


贪婪模式与懒惰模式

常规贪婪模式

匹配任意多个字符:.*

懒惰模式

最少匹配任意字符:.*?

例:

a = 'a.*b'

b = 'a.*?b'

c = 'asdf12321bc*^%$b'

re.search(a, c)

re.search(b, c)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容

  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,070评论 0 99
  • python的re模块--细说正则表达式 可能是东半球最详细最全面的re教程,翻译自官方文档,因为官方文档写的是真...
    立而人阅读 22,855评论 4 46
  • 搞懂Python 正则表达式用法 Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一...
    厦热阅读 1,576评论 0 2
  • #首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法...
    mapuboy阅读 1,607评论 0 51
  • 难道我要的 自由平等 竟是这样的大逆不道 如果 你想让我哭一辈子 我也毫无办法 世人的言语 哪有自己真实的感受来得贴切
    芦荟希望阅读 96评论 0 0