1正则构造函数语法扩展
在es5中获取一个正则表达式的方法如下:
- var reg = new RegExp('partern','modifier');
- var reg = /partern/modifier;
或var reg = new RegExp( /partern/modifier);(注意,这个构造函数里只能传入一个参数 /partern/modifier,再传入其他的会报错)。
ES6首先扩展了2.中使用构造函数创建正则表达式时可传入第二个参数修饰符,用法如下:
var reg = new RegExp( /^/abc/i,'ig')
第二个参数可以传入一个或多个修饰符,会覆盖第一个参数中的修饰符。
2新增修饰符扩展
(1)y粘连修饰符,可以理解它是比较苛刻的全局匹配,被它匹配的第一个子串必须从头开始,之后的必须和前一个紧密相连。
说了半天,看代码吧:
var str = "bbb_bbb_bb"
var reg1 = new RegExp(/b{1,3}/g);
var reg2 = new RegExp(/b{1,3}/y);
var result1 = null;
var result2 = null;
while(result1 = reg1.exec(str)){
if(result1)console.log(result1[0]);
}//输出结果为三个 bbb bbb bb
while(result2 = reg2.exec(str)){
if(result2)console.log(result2[0]);
}//输出结果为一个 bbb
result1会有三个结果不解释
result2只有一个结果,那就是y修饰符的作用,匹配到第一个子串后从其紧挨着的位置开始继续向后匹配,而第一个子串后的'_bbb'不符合模式,所以不选中。
我们改变字符串str的值为bbbbbbbb,再观察上述代码的输出结果:
var str = "bbbbbbbb"
var reg1 = new RegExp(/b{1,3}/g);
var reg2 = new RegExp(/b{1,3}/y);
var result1 = null;
var result2 = null;
while(result1 = reg1.exec(str)){
if(result1)console.log(result1[0]);
}//输出结果为三个 bbb bbb bb
while(result2 = reg2.exec(str)){
if(result2)console.log(result2[0]);
}//输出结果为一个 bbb bbb bb
可见只有在符合模式的子串从头开始且紧密相连时,y修饰符所在的正则表达式才能和g修饰符所在的正则表达式有一样的匹配结果,我们再将字符串str的值改为_bbb_bbb_bb,result2就匹配不到任何结果了,因为不是以符合模式的子串开头的。
另外注意,判断正则表达式是否开启了“粘连”模式,使用reg.sticky返回true说明开启了。
(2)u修饰符,含义为 "Unicode模式",用来正确处理大于 \uFFFF 的Unicode字符。也就是说,会正确处理多字节的 UTF-8 编码。
如"\uD83D\uDC2A"是一个两个双字节形式表示的UTF-8 编码,打印出来是个骆驼
js正则会将
'\uD83D\uDC2A'
理解为两个UTF-8编码,分别单独打印出来是个如果使用下列正则去匹配:
/^\uD83D/.test('\uD83D\uDC2A')
那么正则当然会将'\uD83D\uDC2A'
理解为两个三字节的UTF-8编码,确实是以\uD83D
开头,所以返回true。如加上u修饰符,如下:
/^\uD83D/u.test('\uD83D\uDC2A')
则正则会将'\uD83D\uDC2A'
理解为一个四字节的UTF-16 编码。既然是一个编码,那就不存在以谁为开头的说法,返回结果为false。
另外添加u字符后还会引起正则的一些元字符意义该变,如下:
1. 对{}
数量词元字符的更改
如:/a{1,2}/.test('aa')
该正则匹配1到2次重复的'a'字符,返回结果为true,但若加上u修饰符,{}
中间的数值不一定再被解析为数量,
如:
/\u{61}/u.test('a') // true
/\u{20BB7}/u.test('吉') // true
(1)在正则模式中如前面有\u且修饰符为u,如/\u{61}/u
中的{}
里的61
就不再被解析为数量,而是对应的unicode编码。
(2)如模式前无\u则{}
里的number
仍被解析为数量,只不过加上u修饰符后可以正确指代码点大于 oxFFFF 的Unicode 字符。
如:
/a{2}/.test('aa') // true
/a{2}/u.test('aa') // true
/吉{2}/.test('吉吉') // false
/吉{2}/u.test('吉吉') // true
/a{2}/
中的a为一个unicode字符,其识别码小于oxFFFF,该模式的意思是匹配重复出现2次a
字符的字符串,即使在es5中也可以正确解析,但若碰上别码大于oxFFFF的如/吉{2}/
中的吉
则必须添加u修饰符才能正确解析模式为为去匹配重复两次的吉
,还有一种用法是,如模式中使用了\S
表示匹配任意非空格字符,这个任意并不包括识别码大于oxFFFF的字符,如吉
就不能被成功匹配
/^\S$/.test('吉') // false
必须加u修饰符
如下:
/^\S$/u.test('吉') // true
吉
才能被成功匹配
2. 对.
元字符意义的修改
点.
字符在正则表达式中,含义是除了换行符以外的任意单个字符。对于码点大于 oxFFFF 的 Unicode 字符,点字符不能识别,必须加上 u 修饰符。
如下:
var s = '吉';
/^.$/.test(s) // false
/^.$/u.test(s) // true