Python学习总结【连载】(十五)

Python学习总结【连载】(十五)

2018.07.02 Juttachen


概述

  • 53 认识正则表达式
  • 54 正则表达式的函数

五十三、认识正则表达式

正则表达式主要用于字符串查找,匹配,分割。
import re

match(正则表达式字符串,需要匹配的字符串)

1.不带任何正则符号的正则表达式

    str1 = 'abc'
    print(re.match('abc',str1))

2. 点号 . --->匹配任意的字符

r'a.c':匹配一个字符串第一个字符是'a',第二个是任意字符,第三个字符是'c'

    str1 = 'abc'
    print(re.match(r'...',str1))

例子:写一个正则表达式能够匹配一个字符串第一个字符是g,中间是两个任意字符,然后是d

    str1 = 'good'
    print(re.match(r'g..d',str1))

3.\w

匹配字母,数字,下划线
r'g\w\wd' --->匹配第一个字符是'g',第二三个是任意字母数字下划线,第四个是’d‘的字符串

    str1 = 'go%d'
    print(re.match(r'g\w\wd',str1))

4.\s

匹配空白字符(包括空格(\r),制表符(\t)和回车(\n)等)
例子:要求能匹配第一个字符是数字字母下划线,第二个字母是’a‘,第三个是空白

    print(re.match(r'\wa\s','aa 100'))

5.\d

匹配数字
例子: 匹配前两位必须是数字的字符串

    print(re.match('\d\d','24k纯金'))

6.\b

匹配单词边界(字符串的开始和结束,空白,和标点符号)
注意:\b是不能匹配出结果的,只是对需要出现边际的要求(遇到\b的时候,注意\b后边的要求的字符必须是单词的边界才会成功)

    re_str = r'\bhow\b'
    print(re.match(re_str,'how are you'))

7.^

匹配开头
’^the‘ --->匹配以the开口的字符

    print(re.match(r'^the','theabc'))

8.$

匹配字符串结束
’the$‘ --->匹配字符串’the‘,以及查找以the结束的字符串

9.\W

匹配非字母,非数字,非下划线
注意:所有\大写的都是相应\小写的取反

10.[]

[] --> 匹配[]中任意的一个字符
[]中可以是具体的字符也可以是正则符号,一个中括号只能匹配一位的字符

    re_str = r'[abc]123' #匹配第一个字符是a或者b或者c,后面是123的字符串
    print(re.match(re_str,'a123'))

    re_str = r'abc[\da]'
    print(re.match(re_str,'abc3'))

11.[^]

匹配不在[]中的任意的一个字符

    re_str = r'[^abc]123' #匹配第一个字符不是‘a’或者‘b’或者‘c’,后边是123的字符串
    print(re.match(re_str,'@123'))

12.*

匹配0次或者多次
r'a' ---> 匹配第一个是0或者多个‘a’,‘cc’,‘abc’,‘aaabc’
r'\d
' --->匹配第一个字符是0个或者多个数字,‘cc’,‘1cc’,‘123cc’
r'[abc]' --->'cc','abcww'

13.+

匹配一次或者多次
r'a+' -->匹配第一个字符串开头是'a'或者多个'a':'acc','aacc','aaadjk'
r'\w+' --> 前面是一个或者多个字母数字下划线

    print(re.match(r'a+','abnd'))

14.?

匹配0次或者1次
r'a?123' --> 匹配一个字符串‘123’或者‘a123’或者‘a123’后面有其他字符情况

15.{N}

匹配N次
例子:写一个正则表达式完全匹配一个11位的数字字符串

    re_str = r'\d{11}$'
    print(re.match(re_str,'12345678910'))
    # 写一个正则表达式匹配第一位是1,第二位是3,5,7,8,其他任意的11位数字字符串
    re_str = r'1[3578]\d{9}$'
    print(re.match(re_str,'1357867787910'))

16.{M,}

匹配至少M次
r'{3,}' --> 匹配字符开始是三个或者三个以上的数字,’123abc‘,'12345s'

    print(re.match(r'\d{3}','123abc'))

17.{M,N}

    re_str = r'\w{6,16}'
    print(re.match(re_str,'anhajs'))

判断一个字符串是否是标识符(字母,数字,下划线组成,数字不开头)
[a-z]:是字母'a'到'z'中的任意一个
[A-Z]:是字母'A'到'Z'中的任意一个
[1-9]:是数字到'1'中'9'的任意一个
[a-zA-Z_]:字母或者下划线

18.|

分支(相当于逻辑运算符中的‘or’)
r'(a|b)abc' --->匹配第一个字符是a或者b,后面是abc
r'(\d{3})|([a-zA-Z]{3})' -->匹配开头是三个数字或者那个字母

    re_str = r'(a|b)abc'
    print(re.match(re_str,'aabc'))

19.*?

重复任意次,尽可能少的匹配
? 的用处:在重复多次的匹配中如果后面加问号,匹配的时候以能匹配的最少次数去匹配

    print(re.match(r'a*?','aabc'))

20.+?

重复一次或多次,尽可能少的匹配

    print(re.match(r'a+?','aabc'))
  • 练习:验证用户名和qq号是否有效*

      def qq():
          name = input('name(6到20位的字母数字下划线)>>>')
          qq = input('qq(5到12位数字且0不开头)>>>')
          true_name = r'\w{6,20}$'
          if re.match(true_name,name) == None:
              print('不符合规定')
          else:
              print('输入正确')
          true_qq = r'[1-9]\d{4,11}$'
          if re.match(true_qq,qq) == None:
              print('不符合规定')
          else:
              print('输入正确')
    

练习:判断一个字符串是否是浮点数

    str1 = '123.56'
    result = re.match(r'[+-]?(([1-9]\d*\.\d+)|(0\.\d+))',str1)
    print(result)

*注意:
1.正则表达式中如果需要使用有特殊功能的字符,需要使用‘\’进行特殊说明
2.r只是作用于字符串,正则表达式里面需要转义的还是需要用'',如:. ,* ,+

  1. []字符集中的特殊字符不需要加''来说明其为一个普通字符功能*

五十四、正则表达式的函数

    import re

1.compile()

将正则表达式字符编译成正则对象(就可以去调用相关的正则表达式对象方法)

    reslut = re.compile(r'\d{2}[a-zA-Z]{2}')
    print(type(reslut))

2.match

a.re.match(正则表达式字符串/对象,要匹配的字符串)

b.正则表达式对象.match(要匹配的字符串)

用指定的正则表达式和指定的字符串进行匹配,如果匹配成功就返回匹配对象,否则返回None

    reslut = re.match(r'a\dd','a2dl')
    # 获取匹配结果在原字符串中的范围
    print(reslut)
    # 获取匹配结果在原字符串中的范围
    print(reslut.span())
    # 获取匹配开始的位置和结束的位置
    print(reslut.start(),reslut.end())
    # 获取匹配的结果
    print(reslut.group())
    # 获取原字符串
    print(reslut.string)

3.search

re.search(正则表达式/对象,指定的字符串)
正则表达式/对象.search(指定的字符串)
在指定的字符串中,去查找指定正则表达式匹配的第一个字符串。如果找到了就返回匹配对象,否则返回None。
r'a\dc' 'huhsa1cjksk'

    reslut = re.search(r'a\dc','huhsa1cjksk')
    print(reslut)

4.findall

re.findall(正则表达式/对象,指定的字符串)
在指定的字符串中,去查找指定正则表达式匹配的所有字符串。如果找到了就返回一个列表,否则返回一个空的列表。

    reslut = re.findall(r'a\dc','huhsa1cjksa3ck')
    print(reslut)

练习:获取一个字符串中,所有以ing结束的单词

    # ‘I'm singing and dancing’
    reslut = re.findall(r'[a-zA-Z]*ing\b','I\'m singing and dancing,aingc')
    print(reslut)

5.split

re.split(正则表达式/对象,指定的字符串,最多拆分多少(默认是0,即全部拆分))
正则对象.split(指定的字符串)
'abc,bcd,amn,ssdf jkkks ooppp,okl,jumk'

    reslut = re.compile('[,\s]').split('abc,bcd,amn,ssdf jkkks ooppp,okl,jumk')
    print(reslut)

练习:拆分‘床前明月光,疑是地上霜,举头望明月,低头思故乡’

    reslut = re.split(r'[,。]','床前明月光,疑是地上霜,举头望明月,低头思故乡。')
    reslut.append('')
    for x in reslut:
        if x == '':
            reslut.remove(x)
    print(reslut)

6.sub

re.sub(正则表达式,替换字符串,原字符串) -->替换后原字符串不变,返回一个新的字符串
将指定字符串中的指定的子串替换成其他的字符串
删除字符串'abdf nbcdklabhkblka'中的'a'和'b'

    reslut = re.sub(r'[ab]','','abdf nbcdklabhkblka')
    print(reslut)

例子:将脏话替换成**

    reslut = re.sub(r'scheisse|fick dich|man|leute','***','scheisse Versprecher.')
    print(reslut)

补充:正则表达式中中文的判断
判断是否有中文,如果有就打印不合格,没有则合格

例子:使用中文的Unicode编码范围:\u4e00-\u9fa5(只是正则表达式的表示)

    reslut = re.search(r'[\u4e00-\u9fa5]','jhs好sfosnog')
    print(reslut)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容