正则表达式有两种风格:posix和perl风格,最常用是posix风格的。下面记录的均是posix风格
字符集和类
- 通配符,可以匹配除换行符(
\\n
)之外的任意一个字符
.at
,可以匹配"cat","sat","mat"等,一般这种通配符用于匹配操作系统中的文件名
- 限定范围
- 如果要限定匹配的范围,可以使用
[a-z]at
形式,任何包括在方括号中的内容都是一个字符类-匹配字符所属的字符集合- 可以列出一个集合,
[aeiou]
,来匹配所有元音字母- 也可以描述一个范围,正如前面的连字符,也是一个范围集:
[a-zA-Z]
,这个集合代表任何的大小字母- 也可以指明不属于某个集合,
[^a-z]
,用来匹配不在小写字母中的字符
重复
如果希望某个字符串或者字符类不止一次出现,可以使用2个特殊字符代替:*
和+
,这两个符号放在表示式后面
-
*
表示这个模式可以重复0次或多次 -
+
表示这个模式可以重复1次或更多次
c+at
,表示可以匹配"cat","ccat","cccat",但是无法匹配"at"
c*at
,表示可以匹配"cat","ccat","cccat",也可以匹配"at"
子表达式
通常,将一个表达式分为几个子表达式非常有用,使用圆括号来实现。
(very )*large
,可以匹配:"large","very large","very very large"
子表达式计数
可以在花括号{}
中的数字表达式来指定内容允许重复出现的次数。可以指定一个确切的数字,也可以是一个重复次数范围,或是一个开区间的重复范围
(very){1, 2}
,可以匹配"very","veryvery"
(very){3}
,可以匹配"veryveryvery"
(very)(1,)
,可以匹配"very","veryvery","veryveryvery"...
定位到字符串的开始或末尾
脱字符号^
用于正则表达式的开始,表示子字符串必须出现被搜索字符串的开始处
字符$
,用于正则表达式的末尾,表示子字符串必须出现在字符串的末尾
^bob
,用于在字符串开始处匹配bob
com$
,用于在字符串末尾处匹配com
^[a-z]$
,这个将只能匹配a-z之间的字符组成的字符串
分支
可以使用正则表达式中一条竖线,来表示一个选择
com|edu|net
,来匹配"com","net","edu"中任意一个
匹配特殊字符
如果要匹配那些特殊字符,需要使用转义形式,在要匹配的字符前面加一个反斜杠\\
特殊字符主要有:
- \: 转义字符
-
^
: 在字符串开始匹配 -
$
: 在字符串末尾匹配 -
.
: 匹配除换行符之外的字符(字符串末尾仅代表.
) -
|
: 选择分支的开始 -
(
: 子模式开始 -
)
: 子模式结束 -
*
: 重复0次或多次 -
+
: 重复1次或多次 -
{
: 最小/最大量记号开始 -
}
: 最小/最大量记号结束 -
?
: 标记一个子模式为可选
\\,表示匹配反斜杠\
\\$
,表示匹配$