数据爬取之正则匹配

re模块规则

匹配字符.jpg

匹配中文:[\u4e00-\u9fa5]


匹配数量.jpg

匹配边界.jpg

匹配分组.jpg

匹配方法

  • match方法:从起始位置开始匹配,匹配一次就结束
  • search方法:从任何位置开始匹配,匹配一次就结束
  • findall方法:匹配全部,返回一个列表
  • finditer方法:匹配全部,返回一个迭代器
  • split方法:分割字符串,返回一个列表
  • sub方法:替换

模式

  • re.l 忽略大小写的匹配模式
  • re.S 可匹配任何字符,包括换行符
  • re.X 冗余模式,忽略正则表达式中的空白和#号的注释
  • re.M 多行模式

贪婪和非贪婪

python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符;在*、?、+、{m,n}后面加上?,使贪婪编程非贪婪

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,166评论 0 99
  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 4,050评论 0 13
  • 昨天去农大进行报名确认,忙忙碌碌的顺便再师大找到妹妹一起吃了个鸭爪爪,吃的过程很开心,也是身心全部放松的过程。 顺...
    学思悟践阅读 138评论 0 0
  • 我不知道她的名字,我只有一张模糊的她的照片。 我走在古镇的路上,陈粒的《走马》突然飘过来。我知道这附近一定有人在唱...
    季动阅读 1,404评论 38 39
  • 昨天和女儿一起出去散步,女儿说妈妈你知道吗,我学舞蹈时心里一直有一个阴影,所以后来不想学舞蹈了。 女儿说起了她学舞...
    云在天边阅读 352评论 2 4