python入门_常见正则表达式匹配

made_in_miliLV的主页.png

- 正则表达式：正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。在开发的使用场景 - 例如：匹配url等等

本文中，对正则表达式的一些语法使用，进行了探究与测试，其中包括以下几部分:
①.正则表达式模块组成
②.正则表达式的语法 - '.' , '[...]' , '\d \D' , '\s \S', ' \w \W'
③.正则表达式的语法 - ' * ', ' + ', ' ? ', ' {m} {m,n}', ' *? +? ?? '
④.正则表达式的语法 - '^', ' $' ,' \A \Z'
⑤.正则表达式的语法 - '|' , ' (ab) ',

特别说明，图片名称与上图的目录对应：四[n] = 语法四 = 第⑤条！

1.png

a.使用re的compilie - 生成 pattern对象
b.调用pattern的方法 - 匹配字符串 -- 方法举例：match
    --match：从字符串开头开始匹配，匹配的内容是 compile（‘str’）中的 str
c.返回一个匹配结果 - result

2.png

3.png

使用find方法
- 找到，就返回起始索引起始下标
- 找不到，就返回 -1

4.png

使用 startswitch - 判断起始字符串匹配

使用正则匹配

5.png

a.查看pattern内容

6.png

b.查看pattern类型 - pattern实例

7.png

c.查看pattern的所有方法

8.png

d. 查看match的用法：

9.png

match用法 - 从起始位置开始匹配
匹配成功的话 - 返回对象
匹配不到的话 - 返回zero

10.png

使用match - 开始匹配

11.png

_12.png

==> 匹配成功，返回对象

13.png

==>匹配失败 - 返回zero

匹配数据查看

查看匹配的内容 - group()

15.png

16.png

group() - 使用说明 - 返回字符串or 元组
      ==>匹配的内容是'()' - 返回元组
      ==>匹配的内容是str - 返回字符串

查看匹配内容在源字符串中的 - 位置

17.png

a.查看匹配规则 - miliLV

18.png

b.查看源字符串

19.png

20.png

c. miliLV 在 'miliLV study python' 字符串中的 [0,6）位置，没毛病

查看源字符串 - string

21.png

匹配大小写 - 大写的ignorecase

22.png

匹配规则 - ‘python’ + re.I => 可以匹配大写的'python'

23.png

进行匹配的数据源 - 'PYThon'

24.png

查看匹配结果

25.png

匹配的规则 - 'python' ,re.I
匹配数据源大写的PYT 拼小写的 hon！ == 'PYThon'

这个匹配规则，只要是 'python'这个str，无论里面的字符大小写，都可以顺利匹配！

直接使用match的方式 - 不多设置一个pattern接收

26.png

27.png

正则表达式语法说明一： '.' , '[...]' , '\d \D' , '\s \S', ' \w \W' 用法

一（1）.png

使用“.” 匹配 --> 除了\n以外的所有字符

①.'a' 匹配 'a'

一（2）.png

②.'a'的规则 - 匹配内容：‘b’

一（3）.png

③.使用万能匹配 - '.'

一（4）.png

④.查看'.'的匹配规则：

一（5）.png

匹配 - 字典{xxx}

{ } 中 - 内容是字符

一（6）.png
{ } 中 - 内容是数字

一（7）.png
{ }中 - 内容有多个字符

一（8）.png

总结：一个“.” 只能对应一个字符！

疑问 - 多字符匹配如何匹配？？

一（9）.png

一（10）.png

一（11）.png

总结：
几个字符 - 就用几个"." 去对应匹配

一个点不是匹配一个字符串！而是一个字符！
所以上图的{.} - 匹配不了两个字符{ 1C }的内容！- zero！

字符集匹配 - [ ... ]

一（12）.png

匹配 - ['abc'] 字符集‘abc’中的某个字符是否存在

一（13）.png

匹配非字符集中的字符 - 比如'd'

一（14）.png

为了让d 包含在字符集中匹配 - 修改匹配规则

一（15）.png

虽然可以一个一个写，但是如果匹配的规则是所有英文字母，不得写a,b,c,d, ... z?

解决办法 : 区间匹配 - 使用简写

一（16）.png

大写字母 - 大A呢？

一（17）.png

解决办法：必须要再添加A-Z的匹配规则，a-z 是无法匹配大写字母 “A”的

一（18）.png

一（19）.png

区间匹配，匹配规则如下

可以连着写 : a-zA-Z

也可以用“,”隔开 : a-z,A-Z

==> 怀疑：[a,b]规则 - 匹配 ‘1，2’

一（20）.png

一（21）.png

不管a & z 的顺序，写在第一个的，就会被匹配

测试 -匹配双字符呢？

一（22）.png

一（23）.png

总结： 一个‘[ ]’ 就是匹配一个字符，多余的字符会被忽略！

匹配单词字符 \w

一（24）.png

正常匹配字符 --> \w

一（25）.png

一（26）.png

2.使用单词匹配：\w -匹配非正常字符 - 例如此处的“ ” - 空格

一（27）.png

3.使用非单词匹配 : \W - 匹配非正常字符 - 空格

一（28）.png

匹配内容为 - [xxx]的情况下

1.匹配规则'[xxx] '

一（29）.png

2.匹配规则 - '[[xxx]]'

一（30）.png

3.解决办法 - 加转译字符！

一（31）.png

正则语法二 * + ？ {m}/{m,n} *?/+?/??

二(1).png

正则匹配 - *

匹配 - 双字符的情况下

二(2).png
匹配 - 单字符的情况下

二(3).png

* 排上用场的时候!

二(4).png

二(5).png

* 可以匹配 0 次或者多次，例如上图的[a-z]* 匹配0次，也成功匹配！

test：*匹配无限次！

1.常规匹配 - 未使用 *

二(6).png

2.优化匹配 - 带 *

二(7).png

test:数字开头的匹配

数字开头

二(8).png
数字结尾

二(9).png

总结：

* 代表可以出现0次 or 无限次

*的结尾标志 - 出现在不满足匹配规则的第一个字符开始，全部舍弃

正则匹配 - “+” 号

二(10).png

例如：项目需求 - 测试变量名是否正确

①.大小写字母开头

二(11).png

②.下划线开头

二(12).png

二(13).png

二(14).png

③.数字开头

二(15).png

变量名 -- 只能以下划线_ or 大小写字母开头！

正则 - 开头 ==> 大小写字母 or _ 至少一次，可以多次 ==> '+' 派上场了！

①.匹配单字符

二(16).png

②.匹配单下划线

二(17).png

③.匹配 - 多字符

二(18).png

==> 只匹配了一个字符！！所以需要'+'登场了！

④.匹配 - 多字符 && 使用 '+'

二(19).png

⑤. 匹配 - 带数字的！比如button1

二(20).png

⑥.优化- 加号+ && * 结合使用！

二(21).png

思路：

英文字母 or _ 开头是必须的，所以用加号 - 表明只是匹配一次

除了首字符，其他的可以用数字，英文字母等，但是不一定要有！所以可以0次，用*

test:
①.前部分用+，匹配后部分（数字or英文字母，但是不设置 * 的次数）

二(22).png

前部分[_,a-z,A-Z] 使用了‘+’,表示可以1-N次，当第一个不满足匹配规则的 - 数字1出现之后，停止前部分匹配 - 使用后部分带[0-9]的匹配规则

②.后部分的匹配内容 - 数字长度改为不等于1之后：

二(23).png

③.优化：使用'*' - 表示后部分的规则 - 可以不出现 or 出现多次

二(24).png

正则匹配 - “?” 号

二(25).png

例如 - 验证：一个数字 - 是否是0-99直接的数字

分析 ->

最少一位，至多2位，个位数上的是必须的，所以直接用[0-9]

十位数上，可能有，也可能没有,如果0-9，就没有十位数，所以十位数上匹配规则 --> '[1-9]?'

加个问号 - 代表十位数可以有一次，也可以没有！

test:

常规数字：

二(26).png
个位数为 0

二(27).png
小于10的个位数数字

二(28).png
特例：创世神- 09（以0开头的 - 个位数！）- dotaer才懂的这个梗

二(29).png

解释原因：

查看十位数的匹配规则 - [1-9]? -- 此时十位数是0，所以不满足[1-9]的匹配条件，并且十位数是？ - 可以为 0次！ --> 所以首数字 -0 直接进入后半部分匹配！

个位数匹配规则 - [0-9]，并且只能匹一次，此时进来匹配的是 '09' ==> ‘0’满足匹配条件 -[0-9]！ ==> 所以最终输出0，因为个位数的匹配是 - [0-9]，并没有+ or * ，所以只匹配一个字符 --> ‘0’，剩下的'9'就被舍弃了