正则表达式是一个描述字符模式的对象。JavaScript的正则表达式语法是Perl5的正则表达式语法的子集,也就是说有一些Perl正则表达式语法不被JavaScript支持。
正则表达式的定义
JavaScript中的正则表达式用RegExp对象来表示,可以使用RegExp()构造函数来创建RegExp对象,也可以使用RegExp字面量来创建RegExp对象,一般使用RegExp字面量的方式来定义。
语法
var pattern = /s$/ // RegExp字面量方式定义
var pattern1 = new RegExp('s$'); // 使用RegExp()构造函数定义
模式规则
正则表达式的模式规则由一个字符序列组成。包括所有的字母和数字在内,大多数字符都是按照字面含义进行匹配,如/s/可以匹配任何包含字母s的字符串;除此之外,正则表达式中还包含其他具有特殊语义的字符并不按照字面含义进行匹配,如/s是具有特殊含义的元字符,用来匹配字符串的结束,因此这个正则表达式可以匹配任何以's'结尾的字符串。
直接量字符——按字面含义匹配的字符
字符 | 匹配 |
---|---|
字母和数字 | 按字面含义匹配 |
\o | NUL字符(\u0000) |
\t | 制表符(\u0009) |
\n | 换行符(\u000A) |
\v | 垂直制表符(\u000B) |
\f | 换页符(\u000C) |
\r | 回车符(\u000D) |
\xnn | 由16进制数nn指定的拉丁字符,例如\x0A等价于\n |
\uxxxx | 由16进制数xxxx指定的unicode字符 |
\cX | 控制字符^X,例如\cJ===\n |
字符类
将直接量字符放进方括号内就组成了字符类。字符类可以匹配它所包含的任意字符,如/[abc]/,只要字符串中包含'a','b','c'三个字符中的任意字符就可以匹配。可以通过''符号来定义否定字符类,如/[abc]/匹配'a','b','c'之外的字符。可以使用连接符'-'表示字符的范围,如/[a-z]/,匹配a-z的26个字母,/[a-zA-Z0-9]匹配任意字母和数字。
字符 | 匹配 |
---|---|
[...] | []内的任意字符 |
[^...] | 不在[]内的任意字符 |
. | 除换行符和其他unicode行终止符之外的任意字符 |
\w | 等价于[a-zA-Z0-9] |
\W | 等价于[^a-zA-Z0-9] |
\s | 任何unicode空白符,如空格、制表符、换行符、回车符等 |
\S | 任何非unicode空白符 |
\d | 等价于[0-9] |
\D | 等价于[^0-9] |
[\b] | 匹配退格符 |
重复
重复代表正则表达式中某元素重复出现的次数。
字符 | 匹配 |
---|---|
{n, m} | 匹配n-m次,/\d{3, 5}/匹配3-5位数字 |
{n, } | 匹配n次或更多次,/\d{3,}/匹配至少3位数字 |
{n} | 匹配n次,/\d{2}/匹配2位数字 |
? | 匹配0次或1次,等价于{0, 1} |
+ | 等价于{1,} |
* | 等价于{0,} |
重复分为贪婪的匹配和非贪婪的匹配。
- 贪婪:上表中的列出的就是贪婪的匹配,当匹配到符合模式规则的字符后,会继续向后匹配。如使/a+/可以匹配1个或更多个a,使用'aaa'进行匹配时,会匹配整个'aaa'字符串。
- 非贪婪:在待匹配的字符后跟?即可:??, +?, *?, {1, 5}?。/a+?/也可以匹配1个或更多个a,但它是尽可能少的匹配,使用'aaa'进行匹配时,只匹配第1个'a'。
注意:非贪婪匹配模式所得结果可以与预期不一致。如:/a+?b/匹配'aaaab',并不会返回'ab',而是返回'aaaab',这是因为正则表达式的模式匹配总是寻找字符串中第一个可能匹配的位置。
选择匹配
字符 | 匹配 |
---|---|
| | /ab|ef|hj/可以匹配'ab'或'ef'或'hj' |
选择匹配的次序是从左到右的,当左侧的选择项匹配到以后,会忽略掉右侧的选择项。
指定匹配的位置——锚字符
字符 | 匹配 |
---|---|
^ | 匹配字符串的开头,在多行匹配中,匹配每一行的开头 |
$ | 匹配字符串的结尾,在多行匹配中,匹配每一行的结尾 |
\b | 匹配单词的边界,如空白符或表单符号 |
\B | 与\b正好相反 |
a(?=b) | 匹配a后面跟着b的信息。/some(?= text)/匹配"some text" |
a(?!b) | 匹配a后面不跟b的信息。/some(?!t)/匹配"some a" |
分组和引用字符
分组(组合)
正则表达式中()的多种作用。
- 把单独的pattern组合成子表达式。如:/java(script)?/ 匹配'java',其后可以有'script',也可以没有。
- 定义子模式。当正则表达式成功的和字符串相匹配时,可以抽出与(pattern)相匹配的字符串内容。如/a-z/,匹配'a234',我们可以将数字部分'234'抽取出来。
- 允许同一正则表达式的后面部分引用前面的子表达式,通过引用字符来'\数字'来实现子表达式引用。这个数字指定了表达式中左括号(出现的位置,第一次出现的(的引用为'\1'。
注意:这里的引用并不是引用的正则表达式的子表达式,而是引用的子表达式匹配的文本字符。如:/([ab|ef])\1/,加入([ab|ef])匹配到的是'ab',那么\1就是'ab',如果匹配到的是'ef',那么\1就是'ef'。- (?: )仅用于分组,不会产生引用,即不能通过引用来使用匹配到的文本字符。
字符 | 匹配 |
---|---|
(pattern) | 分组,又被称为捕获模式。可以记忆(捕获)和分组匹配的字符串供引用使用 |
(?:pattern) | 仅分组,又被称为非捕获模式。不记忆与该分组匹配的字符串 |
\num | 引用第n个分组第一次匹配的字符串,num为组索引,组索引是(从左到右)左括号出现的次数,(?:pattern)形式的分组没有索引 |
修饰符
字符 | 含义 |
---|---|
i | 执行不区分大小写的匹配 |
g | 执行全局匹配,找到所有的匹配 |
m | 多行匹配 |