正则表达式

正则表达式的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

\d可以匹配一个数字
\w可以匹配一个字母或数字
.可以匹配任意字符
用*表示任意个字符（包括0个）
用+表示至少一个字符
用?表示0个或1个字符
用{n}表示n个字符，用{n,m}表示n-m个字符
\s可以匹配一个空格
[]表示范围
A|B可以匹配A或B
^表示行的开头，$表示行的结束

re 模块

Python提供re模块，包含所有正则表达式的功能。

import re

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

切分字符串

用正则表达式切分字符串比用固定的字符更灵活，请看正常的切分代码：

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']
>>> re.split(r'[\s\,]+', 'a,b, c  d')
['a', 'b', 'c', 'd']
>>> re.split(r'[\s\,\;]+', 'a,b;; c  d')
['a', 'b', 'c', 'd']

分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）。

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'
>>> m.groups()
('010', '12345')

贪婪匹配

正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。

## 贪婪匹配
>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

## 非贪婪匹配，使用?可以让贪婪匹配转换为非贪婪匹配
>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

编译

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

最后编辑于：2018.06.02 00:11:11

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

正则表达式

正则表达式

re 模块

切分字符串

分组

贪婪匹配

编译

相关阅读更多精彩内容

友情链接更多精彩内容