u修饰符
es5
只能识别utf-16
基本面上的二字节字符,而对于代理对(unicode码大于u+FFFF
)的四字节字符,会解析为两个二进制字符。详细了解javascript的编码相关
(1) unicode
属性
布尔值,表示是否使用u修饰符
(2) 正则匹配
使用u修饰符,正则能够识别4字节的utf-16编码字符为单个字符,即能够从编码单元模式转化为字符模式
- 不使用u操作符,正则把
\uD83D\uDC2A
视为两个2字节字符
/^\uD83D/.test('\uD83D\uDC2A') // true
- 使用u修饰符后,成功识别
\uD83D\uDC2A
为四字节单字符,匹配失败
/^\uD83D/u.test('\uD83D\uDC2A') // false
(3) .
任意单字符匹配
.
表示除了换行符以外的任意单个字符,但不能识别4字节字符,必须使用u修饰符
var s = '𠮷';
/^.$/.test(s) // false
/^.$/u.test(s) // true
(4) unicode表示法
/\u0061/.test('a')
为true
,但当字符unicode码超出u+ffff
时,比如/\u20bb7/
正则就不能正常匹配𠮷
了,可以使用u修饰符搭配上大括号就能识别了。
// 不能识别代理对的字符
/\u20bb7/.test('𠮷') // false
// 使用u修饰符即可
/\u{20bb7}/u.test('𠮷') // true
y
修饰符
(1) sticky属性
布尔值。表示正则是否使用y修饰符
(2) 多次匹配规则
使用y修饰符,正则可以对同一个字符串进行多次匹配,正则会修改它的lastIndex属性(初始值为0)为匹配内容的下一个字符的位置索引,下次匹配会从字符串lastIndex处开始匹配,直到匹配失败,lastIndex设置为0
(3) 只有在reg.exec
和reg.test
等正则方法中,才会有粘连效果
(4) 与g修饰符的区别
g
、y
修饰符都可以多次匹配同一字符串。区别在于 y
修饰符等同于每次匹配时加上了 ^,从开头处匹配;而g修饰符只是正常从lastIndex开始匹配;
正则表达式的复制
var reg = /abc/i
reg2 = new RegExp(reg, 'g')
上一段代码,在es5环境中会报错;在es6环境中,会成功把i
修饰符替换为g
s修饰符
(1) dotAll属性
布尔值。表示正则是否使用s
修饰符
(2) 可以成功匹配行终止符
'.'代表任意单个字符,但有两个例外:
- 一个是四个字节的 UTF-16 字符,这个可以用u修饰符解决
- 另一个是行终止符
- U+000A 换行符(\n)
- U+000D 回车符(\r)
- U+2028 行分隔符(line separator)
- U+2029 段分隔符(paragraph separator)
使用s
修饰符可以成功匹配行终止符
/foo.bar/.test('foo\nbar') // false
/foo.bar/s.test('foo\nbar') // true