正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
基本正则表达式的元字符
.
: 匹配任意单个字符
[...]
: 匹配字符集中任意一个字符. 在[]中所有的元字符都会失效.示例 [Cc]hina可匹配China 或china
[^]
: 匹配除字符集外的任意一个字符
[:space:]
: 表示所有的空格字符
[:graph:]
: 非空格字符
[:print:]
: 可显示的字符
[:punct:]
: 所有的标点符号
[:lower:]
: 所有的小写字母
[:upper:]
: 所有的大写字母
[:alpha:]
: 所有的字母
[:digit:]
: 所有的数字
[:alnum:]
: 所有的字母与数字
[:xdigit:]
: 十六进制数字
\w
: 匹配任何单词组成的字符
\W
: 匹配任何非单词组成的字符
*
: 匹配前面的字符0次或多次
\?
: 匹配前面的字符0次或1次
\+
: 匹配前面的字符1次或多次.
\{n\}
: 匹配前置的表达式n次
\{n,\}
: 匹配前置的表达式至少n次
\{m,n\}
: 匹配前面字符m~n次(包含m,n), 最大数n是有上限的 getconf RE_DUP_MAX Linux上一般是32767
^
: 行首,若放在[]里则表示取反的意思. 其它地方表示自身.示例: ^China即以China单词开头; [^a-f]表示除了a-f之外的字符.
$
: 行尾 ^xxx$即可匹配整行, ^$可xx匹配空白行
\< or \b
: 词首锚定
\> or \b
: 词尾锚定
分组及后向引用:
注:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中.用 \1 \2 \3 ..来分别引用.
\(\)
: 即括号,因为其在bash中的特殊含义,所以用转义符修饰
扩展正则表达式(以下为扩展正则才有的元字符)
?
: 0次或1次
+
: 1次或多次
|
: 匹配其前或后的正则表达式,即或的关系,其优先级最低 如 read|write|fast|slow匹配四者中一个
{m}
: m次
{m,n}
: 至少m次,至多n次
()
: 分组