Python web服务器1:正则表达式

一、总体内容

  • 1.1、正则表达式概述
  • 1.2、re 模块
  • 1.3、匹配单个字符
  • 1.4、匹配多个字符
  • 1.5、匹配开头与结尾
  • 1.6、匹配分组
  • 1.7、re模块的高级用法
  • 1.8、python贪婪和非贪婪
  • 1.9、r 的作用

二、正则表达式概述

  • 2.1、 场景1:在一个文件中,查找出 like 开头的语句

    like hello python
    like c++
    itheima ios
    itheima php
    
  • 2.2、 场景二:在一个文件中,找到含有like的语句,下面是测试文件

    hello like python
    can you like c++
    itheima ios
    itheima php
    
  • 2.3、 场景三:在一个文件中,找到所有的图片链接

三、re 模块(match是从头匹配)
在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re

  • re模块的使用过程

    # 导入re模块
    import re
    
    # 使用match方法进行匹配操作
    result = re.match(r"Hello","hello IronMan")
    
    # 如果上一步匹配到数据的话,可以使用group方法来提取数据
    if result:
        print("匹配到的内容是:%s"%result.group())
    else:
        print("没有匹配到内容")
    

    提示:re.match()能够匹配出以xxx开头的字符串,match()第一个参数是匹配的规则,第二个参数是要匹配的内容

四、匹配单个字符

字符 功能
. 匹配任意一个字符(除了\n
[] 匹配[]中列举的字符
\d 匹配数字,即 0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即空格 tab
\S 匹配非空白
\w 匹配单词字符,即 a-zA-Z0-9_、汉字以及其他文字
\W 匹配非单词字符
  • 示例:

    import re
    
    # 大小写h都可以的情况
    ret = re.match(r"[hH]","hello Python")
    print(ret.group())
    
    # 匹配0到9第一种写法
    ret = re.match(r"\dHello","6Hello Python")
    print(ret.group())
    
    # 匹配空白,即空格 tab 键
    ret = re.match(r"Hello\sP","Hello Python")
    print(ret.group())
    
    # 匹配单词字符,即 a-z、A-Z、0-9、_、汉字以及其他文字
    ret = re.match(r"\wHello","哈Hello Python")
    print(ret.group())
    

    打印结果是:

    h
    6Hello
    Hello P
    哈Hello
    

五、匹配多个字符

字符 功能
* 匹配前一个字符出现0次或者无限次,即可有可无
+ 匹配前一个字符出现1次或者无限次,即至少有一次
? 匹配前一个字符出现1次或者0次,要么有一次,要么没有
{m} 匹配前一个字符出现 m 次
{m,n} 匹配前一个字符出现 m ~n 次
  • 示例:

    import re
    
    # * 匹配前一个字符出现0次或者无限次,即可有可无
    result = re.match(r"\w*","Ilovebaby")
    print(result.group())
    
    # + 匹配前一个字符出现1次或者无限次,即至少有一次
    result = re.match(r"H+","Hlovebaby")
    print(result.group())
    
    # ? 匹配前一个字符出现1次或者0次,要么有一次,要么没有
    result = re.match(r"H?ello","Hello")
    print(result.group())
    
    # {m} 匹配前一个字符出现 m 次
    result = re.match(r"H{3}ello","HHHello")
    print(result.group())
    
    # {m,n} 匹配前一个字符出现 m ~n 次
    result = re.match("H{1,3}ello","HHello")
    print(result.group())
    

    实战:匹配出163的邮箱地址,且@符号之前有4到20位,例如hello@163.com

    import re
    
    # 匹配出163的邮箱地址,且@符号之前有4到20位,例如`hello@163.com`
    result = re.match(r"\w{4,20}@163\.com","2318162@163.com")
    
    print(result.group())
    

六、匹配开头结尾

字符 功能
^ 匹配字符串开头
$ 匹配字符串结尾
  • 只要是”^”这个字符是在中括号”[]”中被使用的话就是表示字符类的否定,如果不是的话就是表示限定开头。我这里说的是直接在”[]”中使用,不包括嵌套使用。
    其实也就是说”[]”代表的是一个字符集,”^”只有在字符集中才是反向字符集的意思。
  • 如:([^/]+(/[^ ]*) : 意思是 :[^/]:除了/以外,+:至少一个字符,/[^ ]*:表示除了空格,也就是到空格就不匹配了,*:表示匹配前一个字符出现0次或者无限次,即可有可无
  • ^:参考博客
  • 6.1、在五里面判断邮箱是不完善的,我们看如下

    import re
    
    email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"]
    
    for email in email_list:
          ret = re.match(r"[\w]{4,20}@163\.com", email)
          if ret:
               print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
          else:
               print("%s 不符合要求" % email)
    

    结果如下(我们可以看到xiaoWang@163.comheihei是不符合邮箱规则的)

    xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
    xiaoWang@163.comheihei 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
    .com.xiaowang@qq.com 不符合要求
    
  • 6.2、对 6.1 的完善后

    import re
    
    email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"]
    
    for email in email_list:
          ret = re.match(r"[\w]{4,20}@163\.com$", email)
          if ret:
               print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
          else:
               print("%s 不符合要求" % email)
    

    打印结果是:

    xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
    xiaoWang@163.comheihei 不符合要求
    .com.xiaowang@qq.com 不符合要求
    

    提示: re.match()是默认开头的,结尾要自己这是,$是以塔之前的字符结尾,开头大家也可以设置 ^,平时很少用是因为:re.match()是默认开头的

    • 遇到 普通的 ?.以及* 要用进行转义字符 \ ,如上面的 163.com中的我们要对 . 进行转义,如:163\.com

七、匹配分组

字符 功能
| 匹配左右任意一个表达式
(ab) 将括号中字符作为一个分组
\num 引用分组num匹配到的字符串
(?P<name>) 分组起别名
(?P=name) 引用别名为name分组匹配到的字符串
  • 7.1、示例 1,我们以匹配 163或者qq邮箱为例

    import re
    
    email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", "xiaowang@qq.com"]
    
    for email in email_list:
       ret = re.match(r"[\w]{4,20}@(163|qq)\.com$", email)
       if ret:
           print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
       else:
           print("%s 不符合要求" % email)
    

    打印结果是:

    xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com
    xiaoWang@163.comheihei 不符合要求
    xiaowang@qq.com 是符合规定的邮件地址,匹配后的结果是:xiaowang@qq.com
    

    分析:我们可以看到 re.match("[\w]{4,20}@(163|qq)\.com$", email),其中(163|qq)代表可以匹配163或者qq,如果想取出来用的匹配出来的是qq还是163我们可以使用 group(num),其中 num 代表第几个括号,在正则里面你可能用很多个括号,如下

    print("%s 是符合规定的邮件地址,匹配后的结果是:%s 具体匹配的是:%s" % (email, ret.group(),ret.group(1)))
    

    打印结果是:

    xiaoWang@163.com 是符合规定的邮件地址,匹配后的结果是:xiaoWang@163.com 具体匹配的是:163
    xiaoWang@163.comheihei 不符合要求
    xiaowang@qq.com 是符合规定的邮件地址,匹配后的结果是:xiaowang@qq.com 具体匹配的是:qq
    

    提示:如果你还想匹配其他的邮箱:如126等等,可以(163|162|qq)

  • 7.2、不是以5、9结尾的手机号码(11位)

    import re
    
    result = re.match(r"1\d{9}[0-46-8]]","13462902659")
    
    if result:
         print("手机号:%s 符合规则"%result.group())
    else:
         print("不符合规则的手机号")
    
  • 7.3、提取区号和电话号码

    import re
    
    result = re.match(r"(\d{3,4})-(\d{7,8})$","010-12345678")
    
    if result:
    
        print("符合规则:%s 区号是:%s 电话号码是:%s"%(result.group(),result.group(1),result.group(2)))
    else:
        print("不是符合规则的号码")
    

    打印结果是:

    符合规则:010-12345678 区号是:010 电话号码是:12345678
    
  • 7.4、匹配出<body><html>hh</html></body>

    import re
    
    result = re.match(r"<(body)><(html)>\w*</\2></\1>","<body><html>你是标签吗</html></body>")
    
    if result:
         print("可以匹配出结果:%s"%result.group())
    else:
         print("不符合匹配的规则")
    

    结果是:

    可以匹配出结果:<body><html>你是标签吗</html></body>
    
  • 7.5、(?P<name>)(?P=name)的使用:我们还用7.4的例子,用分组起别名来写''

    import re
    
    result = re.match(r"<(?P<p1>body)><(?P<p2>html)>\w*</(?P=p2)></(?P=p1)>","<body><html>你是标签吗</html></body>")
    
    if result:
          print("可以匹配出结果:%s"%result.group())
    else:
          print("不符合匹配的规则")
    

    注意:注意:(?P<name>)(?P=name)中的字母P大写

八、re 模块的高级用法

  • 8.1、search
    需求:匹配出文章阅读的次数

    import re
    
    result = re.search(r"\d+","这篇作文有 299 人读过")
    
    if result:
          print(result.group())
    else:
          print("无法匹配")
    
  • 8.2、findall : 找出所有匹配的内容,以 列表 的形式返回

    需求:统计出字符串中出现 love 的次数,代码如下:

    import re
    
    result = re.findall(r"love","I love you baby! Can you love me ? ")
    
    print(result)
    

    打印结果是:

    ['love', 'love']
    
  • 8.3、sub 将匹配到的数据进行替换: 返回的是替换过的字符串

    • 需求1:将8.2匹配到的 love 替换为 like

      import re
      
      result = re.sub(r"love","like","I love you baby! Can you love me ? ")
      
      print(result)
      

      结果是:

      I like you baby! Can you like me ?
      
    • 需求2:将 8.1 中匹配出文章阅读的次数 +1 处理

      import re
      
      def add(temp):
      
         # 取出匹配的次数
         read_num_str =  temp.group()
         # 进行+1 操作
         num = int(read_num_str) + 1
         # 返回操作后的结果
         return str(num)
      
      result = re.sub(r"\d+",add,"这篇作文有 299 人读过")
      print(result)
      

      结果是:(上面的add是一个函数名字,自己可以随便写)

      这篇作文有 300 人读过
      

      提示:sub(匹配规则,参数2,要匹配的内容)

      • 参数2 (字符串):如果你写为字符串,那么将匹配到的内容将被字符串参数2替换掉,如上:需求1
      • 参数2 (函数名):如果你写为函数名,那么将匹配到的内容将会去调用函数,在函数里面处理过的内容返回,返回的内容将替换掉原来匹配到到的内容,如上:需求2
  • 8.4、split 根据匹配进行切割字符串,并返回一个列表

    需求:切割字符串 “ I,love you”

    import re
    
    ret = re.split(r",| ","I,love you")
    print(ret)
    

    打印结果是:

    ['I', 'love', 'you']
    

九、python贪婪和非贪婪

  • 9.1、Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
    非贪婪则相反,总是尝试匹配尽可能少的字符。
    "*""?""+""{m,n}"后面加上 ,使 贪婪 变成 非贪婪

    >>> s="This is a number 234-235-22-423"
    >>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
    >>> r.group(1)
    '4-235-22-423'
    >>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
    >>> r.group(1)
    '234-235-22-423'
    >>>
    
  • 9.2、正则表达式模式中使用到 通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。
    解决方式:非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。

    >>> re.match(r"aa(\d+)","aa2343ddd").group(1)
    '2343'
    >>> re.match(r"aa(\d+?)","aa2343ddd").group(1)
    '2'
    >>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) 
    '2343'
    >>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
    '2343'
    >>>
    
  • 9.3、练习:提取url地址

    <img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">
    

    正则为:hhtps://.*?\.jpg

十、r 的作用

>>> mm = "c:\\a\\b\\c"
>>> mm
'c:\\a\\b\\c'
>>> print(mm)
c:\a\b\c
>>> re.match("c:\\\\",mm).group()
'c:\\'
>>> ret = re.match("c:\\\\",mm).group()
>>> print(ret)
c:\
>>> ret = re.match("c:\\\\a",mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\\a",mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\a",mm).group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
>>>

说明: Python中字符串前面加上 r 表示原生字符串,与大多数编程语言相同,正则表达式里使用""作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

  • Python里的原生字符串很好地解决了这个问题,有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。
 >>> mm = "c:\\a\\b\\c"
 >>> ret = re.match(r"c:\\a",mm).group()
 >>> print(ret)
 c:\a

解释:如果上面你不用 r,那么正则你需要写为:c:\\\\a,也就是转义,有了r,你就可以省掉了,r可以帮你自己动添加

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容

  • 正则表达式、re模块、匹配单个字符、匹配多个字符、匹配开头结尾、匹配分组、re模块的高级用法、python贪婪和非...
    Cestine阅读 1,454评论 0 1
  • 1.正则表达式概述 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regula...
    TENG书阅读 840评论 0 1
  • (一)定义 正则表达式是对字符串(包括普通字符(例如,a 到 z之间的字母)和特殊字符(称为“元字符”))操作的一...
    a荷包蛋阅读 522评论 0 0
  • 一、破解密码 1. 排列 代码演示:import itertools#1。排列#从n个不同的元素中取出m(m <...
    hollow_02f9阅读 2,176评论 0 0
  • 每个人都有焦虑的时候,但我们很多人都会被当时焦虑烦燥的感觉控制心绪。我们会真真切切感受到自己不开心不快乐及一...
    无敌疯婆娘阅读 133评论 0 1