正则表达式的组成

正则表达式由四部分组成，分别是

定界符

元字符

量词

模式修正符

定界符

一般用两个斜线 //，也可以用两个井号##

元字符

指的是想要筛选的内容
例如 /e/就表示要筛选e这个字母

除了使用一个字母表示要筛选的字符外，正则表达式还提供了一些特殊符号表示筛选范围中的一个

转义字符

\w 表示字母数字下划线中的任意一个
\W表示\w的反义词，即补集
\d表示0-9中的任意一个
\D表示除了数字以外的任意一个字符
\s表示空格
\S表示除空格之外的任意字符
\b表示单词的边界 
例如'/\bis\b/'可以匹配this is phone 中间的is

集合

表示集合中的任意一个字符
[a-z]表示a到z中任何一个字符
[abc]表示abc这三个字母中的任意一个
[^abc]表示除了abc这三个字母中的任意一个
[\x{4e00}-\x{9fa5}]表示中文中的第一个中文到最后一个中文 例如
/[\x{4e00}-\x{9fa5}]/u  (u的意思是将待匹配的字符串按照utf8转码)

语义字符

.点号可以匹配除了换行符之外的任意字符(换行符指的是\n而不是回车)
|表示或者的意思 red|blue

量词

默认情况下正则表达式采用的贪婪模式，即尽可能多的匹配
量词表示元字符的数量，也就是筛选内容的长度

{m} 表示m个
{n,m}表示最小n个，最多m个
{n,}表示最少n个，最多无穷个
/.{5,10}/  匹配除了换行符以外的任意字符，最少5个，最多10个，默认贪婪所以会匹配10个
\*  表示0个或多个
\+  表示至少一个
?  表示0个或1个
/.*/  匹配除了换行符以外的任意字符，任意几个，默认贪婪所以会匹配最多的

问号有一个特殊用法，写在元字符后边表示量词0个或1个，写在量词后边表示将贪婪模式转化为懒惰模式，也就是尽可能少的去匹配

小技巧
在正则表达式里加上括号()，可以把括号里的内容单独匹配，例如
//
可以把图片的src地址单独匹配出来

^在[ ]外边表示匹配字符串开始的位置
$在[ ]外边表示匹配字符串结束的位置

模式修正符

模式修正符是对正则表达式进行模式修饰，写在正则表达式的定界符后边
例如 /a/i 可以匹配大写和小写的a

i  忽略大小写
u  utf8编码处理字符串
U  将贪婪模式转换为懒惰模式(在量词后边加?仅对当前量词进行懒惰处理，U则是将整个正则表达式转换为懒惰模式)
s  万能点模式，可以使 . 匹配任意字符
m  多行模式，指将字符串中每个换行看作一个新的字符串进行匹配

最后编辑于：2020.03.18 13:09:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

正则表达式的组成

正则表达式的组成

定界符

元字符

量词

模式修正符

相关阅读更多精彩内容

友情链接更多精彩内容