正则表达式学习

参考资料:
爬虫入门系列(五):正则表达式完全指南(上)
爬虫入门系列(六):正则表达式完全指南(下)

  • 常规字符与原始字符
    print('aa\n')
    print(r'aa\n')

输出

aa

aa\n

常规字符会将一些转义字符\n\t等识别并另外表示为对应的显示
原始字符是什么就是什么!
正则表达式的规则用原始字符表示

  • python-re库
    original_str = 'and'
    pattern = re.compile(r'a.d')
    # 返回一个match对象
    m = pattern.match(original_str)  # 等价于re.match(r"a.d", "and")
    print(m)

结果:

<_sre.SRE_Match object; span=(0, 3), match='and'>
  • 基本元字符
  • 边界匹配
  • 重复匹配
  • 逻辑分支
  • 分组
    括号为一个分组,跟算术式的括号差不多
    group()没有参数取刚好匹配的字符串,group(n)分别去第n个分组
    # 匹配IP地址
    pattern = re.compile(r'(\d{1,3}\.){3}\d{1,3}')
    result = pattern.match('192.168.01.02xxx')
    print(result.group())
    print(result.group(1))
  • group只返回第一个,findall返回多个
    pattern = re.compile(r'ab')
    result = pattern.match('abab')
    print(result.group())

    pattern = re.compile(r'ab')
    result = pattern.findall('abab')
    print(result)
  • findall返回第一个分组
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src=".*?">')
    result = pattern.findall(html)
    print(result)

    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src="(.*?)">')
    result = pattern.findall(html)
    print(result)
  • 贪婪模式与非贪婪模式
    *贪婪模式,满足匹配的情况下尽可能多地重复
    *?非贪婪模式,只吸取一个
    # 非贪婪模式
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src="(.*?)">')
    result = pattern.findall(html)
    print(result)

    # 贪婪模式
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*src="(.*?)">')
    result = pattern.findall(html)
    print(result)

  • 识别邮箱
html = """
        <style>
            .qrcode-app{
                display: block;
                background: url(/pics/qrcode_app4@2x.png) no-repeat;
            }
        </style>

        <div class="reply-doc content">
            <p class="">34613453@qq.com,谢谢了</p>
            <p class="">30604259@qq.com麻烦楼主</p>
        </div>
        <p class="">490010464@163.com<br/>谢谢</p>
      """

    pattern = re.compile(r'(\d+@(\d|\w+).com)')
    result = pattern.findall(html)
    print(result)
    for mail in result:
        print(mail[0])

结果:

[('34613453@qq.com', 'qq'), ('30604259@qq.com', 'qq'), ('490010464@163.com', '163')]
34613453@qq.com
30604259@qq.com
490010464@163.com
  • re函数区别
    print('match和fullmatch的区别:')
    str = '1234@qq.com!!!!'
    pattern1 = re.compile(r'\d+@qq.com')
    print(pattern1.match(str).group())
    print(pattern1.fullmatch(str))

    print('$的作用:')
    str2 = '1234@qq.com!!!!'
    pattern1 = re.compile(r'\d+@qq.com')
    pattern2 = re.compile(r'\d+@qq.com$')
    print(pattern1.match(str).group())
    print(pattern2.match(str))

    print('search和match的区别:')
    str3 = '!!!!1234@qq.com'
    pattern3 = re.compile(r'\d+@qq.com')
    print(pattern3.search(str3).group())
    print(pattern3.match(str3))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近在学PHP,js时需要用到正则表达式,尽管在学Python时学了一些但是不够系统。每次看到繁琐的正则,就浅尝辄...
    zjbao123阅读 477评论 0 2
  • 正则表达式练习题点击这里 创建一个正则表达式 使用一个正则表达式字面量,其由包含在斜杠之间的模式组成,如下所示: ...
    打铁大师阅读 1,286评论 0 6
  • 一.正则表达式匹配原则 占有字符和零宽度 在正则表达式匹配过程中,如果子表达式匹配到的是字符内容,并被保存在结果之...
    Coree阅读 564评论 0 0
  • 学习资料: 《学习正则表达式》 4. 选择、分组、向后引用 分组通过对文本加一对()圆括号来帮助执行某种操作: 在...
    英勇青铜5阅读 856评论 0 3
  • 文/莫菲阳光 那一年,带妹妹去北京动物园玩时碰见一对老夫妇,女人在前面拄着拐杖领着瞎眼的男人顶着烈日乞讨。妹妹毫不...
    葵北阅读 523评论 11 9