正则表达式学习

参考资料:
爬虫入门系列(五):正则表达式完全指南(上)
爬虫入门系列(六):正则表达式完全指南(下)

  • 常规字符与原始字符
    print('aa\n')
    print(r'aa\n')

输出

aa

aa\n

常规字符会将一些转义字符\n\t等识别并另外表示为对应的显示
原始字符是什么就是什么!
正则表达式的规则用原始字符表示

  • python-re库
    original_str = 'and'
    pattern = re.compile(r'a.d')
    # 返回一个match对象
    m = pattern.match(original_str)  # 等价于re.match(r"a.d", "and")
    print(m)

结果:

<_sre.SRE_Match object; span=(0, 3), match='and'>
  • 基本元字符
  • 边界匹配
  • 重复匹配
  • 逻辑分支
  • 分组
    括号为一个分组,跟算术式的括号差不多
    group()没有参数取刚好匹配的字符串,group(n)分别去第n个分组
    # 匹配IP地址
    pattern = re.compile(r'(\d{1,3}\.){3}\d{1,3}')
    result = pattern.match('192.168.01.02xxx')
    print(result.group())
    print(result.group(1))
  • group只返回第一个,findall返回多个
    pattern = re.compile(r'ab')
    result = pattern.match('abab')
    print(result.group())

    pattern = re.compile(r'ab')
    result = pattern.findall('abab')
    print(result)
  • findall返回第一个分组
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src=".*?">')
    result = pattern.findall(html)
    print(result)

    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src="(.*?)">')
    result = pattern.findall(html)
    print(result)
  • 贪婪模式与非贪婪模式
    *贪婪模式,满足匹配的情况下尽可能多地重复
    *?非贪婪模式,只吸取一个
    # 非贪婪模式
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*?src="(.*?)">')
    result = pattern.findall(html)
    print(result)

    # 贪婪模式
    html = '![](/images/category.png)![](/images/js_framework.png)'
    pattern = re.compile(r'<img.*src="(.*?)">')
    result = pattern.findall(html)
    print(result)

  • 识别邮箱
html = """
        <style>
            .qrcode-app{
                display: block;
                background: url(/pics/qrcode_app4@2x.png) no-repeat;
            }
        </style>

        <div class="reply-doc content">
            <p class="">34613453@qq.com,谢谢了</p>
            <p class="">30604259@qq.com麻烦楼主</p>
        </div>
        <p class="">490010464@163.com<br/>谢谢</p>
      """

    pattern = re.compile(r'(\d+@(\d|\w+).com)')
    result = pattern.findall(html)
    print(result)
    for mail in result:
        print(mail[0])

结果:

[('34613453@qq.com', 'qq'), ('30604259@qq.com', 'qq'), ('490010464@163.com', '163')]
34613453@qq.com
30604259@qq.com
490010464@163.com
  • re函数区别
    print('match和fullmatch的区别:')
    str = '1234@qq.com!!!!'
    pattern1 = re.compile(r'\d+@qq.com')
    print(pattern1.match(str).group())
    print(pattern1.fullmatch(str))

    print('$的作用:')
    str2 = '1234@qq.com!!!!'
    pattern1 = re.compile(r'\d+@qq.com')
    pattern2 = re.compile(r'\d+@qq.com$')
    print(pattern1.match(str).group())
    print(pattern2.match(str))

    print('search和match的区别:')
    str3 = '!!!!1234@qq.com'
    pattern3 = re.compile(r'\d+@qq.com')
    print(pattern3.search(str3).group())
    print(pattern3.match(str3))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 最近在学PHP,js时需要用到正则表达式,尽管在学Python时学了一些但是不够系统。每次看到繁琐的正则,就浅尝辄...
    zjbao123阅读 468评论 0 2
  • 正则表达式练习题点击这里 创建一个正则表达式 使用一个正则表达式字面量,其由包含在斜杠之间的模式组成,如下所示: ...
    打铁大师阅读 1,249评论 0 6
  • 一.正则表达式匹配原则 占有字符和零宽度 在正则表达式匹配过程中,如果子表达式匹配到的是字符内容,并被保存在结果之...
    Coree阅读 534评论 0 0
  • 学习资料: 《学习正则表达式》 4. 选择、分组、向后引用 分组通过对文本加一对()圆括号来帮助执行某种操作: 在...
    英勇青铜5阅读 788评论 0 3
  • 文/莫菲阳光 那一年,带妹妹去北京动物园玩时碰见一对老夫妇,女人在前面拄着拐杖领着瞎眼的男人顶着烈日乞讨。妹妹毫不...
    葵北阅读 510评论 11 9