正则表达式

正则表达式概述

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思，Regular Expression即“描述某种规则的表达式”之意。

re模块操作

在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个模块，名字为re

re.match():注意match方法默认是从第一个字符开始匹配的，若第一个字符无法匹配则返回None

正则表达式单字符匹配：

'.'：各种汉字、字符、符号、空格等任意字符均能匹配，回车（\r）可以匹配，制表位（\t）也可以匹配，但是换行（\n）不能匹配。（多个.号可以联合使用）

大小写都可以的情况：match函数可以有第三个参数

匹配0-9之间的任意数字：

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

匹配非数字：\D

匹配数字、下划线、各个国家的文字：\w

匹配原始字符串：r或\

Python中字符串前面加上r表示原生字符串，与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，有了原始字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

表示数量：

表示边界：

匹配分组：

匹配0-100之间的数字：

re模块高级用法：

1、match：从第一个字符开始匹配找出第一个满足正则表达式的字符串，若第一个字符不匹配则返回None。

2、search：找出第一个满足正则表达式的字符串，与match的不同支出在于，match匹配时第一个字符串不满足要求则返回None，而search只要在字符串任何位置找出第一个满足要求的字符串均可。

3、findall：匹配出字符串中所有满足正则表达式的字串，默认匹配所有，返回一个列表，若匹配不到则返回一个空列表。findall可以写2个到3个参数，也可以通过先编译的方式指定匹配的范围。

4、finditer:匹配出字符串中所有满足条件的字串，返回一个可迭代对象（即迭代器），遍历迭代器中每一个元素，得到的每一个元素是一个match对象，这里需要特别注意，在对迭代器进行遍历时，只能遍历一次，因为迭代器是单向的，再次遍历就会得到空值，若想再次进行遍历可以借助itertools.tee()方法复制一个同样的迭代器出来。