正则表达式

概述

世界上信息非常多,而因为关注信息有限。现在需要把关注的信息提取出来,,此时就用一种表达式对数据进行提取。正则表达式就是其中的一种,在python中还有beautifulsoup、xpath等等

原子

原子是正则中最基本的组成单位,每个表达式至少包含一个原子,原子类型有:

  1. 普通字符作为原子
  2. 非打印字符作为原子
  3. 通用字符作为原子
  4. 原子表
import re #导入正则

#普通字符为原子
string = "ilovepython"
pat = "py"
rst = re.search(pat,string)
print(rst)

#非打印字符作为原子
string2 = '''
wo
xi
huan
python
!
'''
pat2 = "\n"
rst2 = re.search(pat2,string2)
print(rst2)

常用的通用字符

\w 字母、数据、下划线
\W 除字母、数字、下划线
\d 十进制数字
\s 除十进制数字
\S 空白字符

原子表

import re
string = "hellopython"
pat = "ll[aoc]p"
rst = re.search(pat,string)
print(rst)

这里的原子表表示在该列表里面匹配任意一个有效字符,然后返回

元字符

. 匹配除了换行符的任意字符
^ 匹配开始位置
$ 匹配结束位置
*代表前边的原子重复出现0次、1次或者多次
?代表前边的原子重复出现0次或者1次
+代表前边的原子重复出现1次或者多次
[n] 恰好出现n次
[n,] 至少出现n次
[n,m] 至少n次,最多m次
| 模式选择符
() 单元模块

模式修正符

所谓的模式修正符,即可以在不改变正则表达式的情况下,通过模式修政符改变正则表达式的含义,从而实现匹配结果的调整等功能。

I 匹配时忽略大小写
M 多行匹配
L 本地化识别匹配
U unicode
S 让.匹配包括换行

string = "Python"
pat = "pyt"
rst = re.search(pat,string,re.I) #忽略大小写
print(rst)

贪婪模式与懒惰模式

贪婪模式的核心就是尽可能多的匹配,而懒惰模式就是尽可能少的匹配。

#贪婪模式
string = "Pythony"
pat = "p.*y"
rst = re.search(pat,string,re.I) #默认贪婪模式,匹配多个结果返回
print(rst)

#懒惰模式
string = "Pythony"
pat = "p.*y"
rst = re.search(pat,string,re.I) #默认贪婪模式,匹配多个结果返回
print(rst)

正则表达式的函数

本身不会实现任何功能,只是进行匹配

re.match()

从开头开始匹配

#匹配不成功
string = "Python"
pat = "oyt"
rst = re.match(pat,string,re.I) #忽略大小写
print(rst)

#成功匹配
string = "Python"
pat = "pyt"
rst = re.match(pat,string,re.I) #忽略大小写
print(rst)

re.search()

从任意地方开始匹配

全局匹配

全局匹配格式
re.compile(正则表达式).findall(数据)

string = "PythonyPypsdddfypdfgfdy"
pat = "p.*?y"
rst = re.compile(pat).findall(string)
print(rst)

常见的实例

匹配网址(.com或者.cn)

string = "(<a href='http://www.baidu.com/'>百度首页</a>)"
pat = "[a-zA-Z]+://[^\s]*[.com|.cn]"
rst = re.compile(pat).findall(string)
print(rst)

匹配电话号码

string4 = "as010-27302284dhscn0933-2710228kdwlnckdshidfohwiohios"
pat4 = "\d{4}-\d{7}|\d{3}-\d{8}"
rst4 = re.compile(pat4).findall(string4)
print(rst4)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,147评论 0 9
  • `>本文是 Jan Goyvaerts 为 RegexBuddy 写的教程的译文,版权归原作者所有 在本文中讲述了...
    极客圈阅读 2,078评论 0 5
  • 注:本篇文章只为方便查看,特此保留,如有冒犯,敬请谅解!!! 本文目标 30分钟内让你明白正则表达式是什么,并对它...
    阿杰Alex阅读 1,483评论 0 10
  • 原文:http://www.jb51.net/tools/zhengze.html 然后强迫症如我,因为我怕网页哪...
    你再不来我要下雪了阅读 836评论 1 6
  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,077评论 0 99