正则表达式的组成

正则表达式由四部分组成,分别是

  1. 定界符
  2. 元字符
  3. 量词
  4. 模式修正符

定界符

一般用两个斜线 //,也可以用两个井号##

元字符

指的是想要筛选的内容
例如 /e/就表示要筛选e这个字母

除了使用一个字母表示要筛选的字符外,正则表达式还提供了一些特殊符号表示筛选范围中的一个

  • 转义字符
\w 表示字母数字下划线中的任意一个
\W表示\w的反义词,即补集
\d表示0-9中的任意一个
\D表示除了数字以外的任意一个字符
\s表示空格
\S表示除空格之外的任意字符
\b表示单词的边界 
例如'/\bis\b/'可以匹配this is phone 中间的is
  • 集合
表示集合中的任意一个字符
[a-z]表示a到z中任何一个字符
[abc]表示abc这三个字母中的任意一个
[^abc]表示除了abc这三个字母中的任意一个
[\x{4e00}-\x{9fa5}]表示中文中的第一个中文到最后一个中文 例如
/[\x{4e00}-\x{9fa5}]/u  (u的意思是将待匹配的字符串按照utf8转码)
  • 语义字符
.点号可以匹配除了换行符之外的任意字符(换行符指的是\n而不是回车)
|表示或者的意思 red|blue

量词

默认情况下正则表达式采用的贪婪模式,即尽可能多的匹配
量词表示元字符的数量,也就是筛选内容的长度

{m} 表示m个
{n,m}表示最小n个,最多m个
{n,}表示最少n个,最多无穷个
/.{5,10}/  匹配除了换行符以外的任意字符,最少5个,最多10个,默认贪婪所以会匹配10个
\*  表示0个或多个
\+  表示至少一个
?  表示0个或1个
/.*/  匹配除了换行符以外的任意字符,任意几个,默认贪婪所以会匹配最多的

问号有一个特殊用法,写在元字符后边表示量词0个或1个,写在量词后边表示将贪婪模式转化为懒惰模式,也就是尽可能少的去匹配

小技巧
在正则表达式里加上括号(),可以把括号里的内容单独匹配,例如
//
可以把图片的src地址单独匹配出来

^在[ ]外边表示匹配字符串开始的位置
$在[ ]外边表示匹配字符串结束的位置

模式修正符

模式修正符是对正则表达式进行模式修饰,写在正则表达式的定界符后边
例如 /a/i 可以匹配大写和小写的a

i  忽略大小写
u  utf8编码处理字符串
U  将贪婪模式转换为懒惰模式(在量词后边加?仅对当前量词进行懒惰处理,U则是将整个正则表达式转换为懒惰模式)
s  万能点模式,可以使 . 匹配任意字符
m  多行模式,指将字符串中每个换行看作一个新的字符串进行匹配
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 正则表达式简介 Perl最重要的一大特色就是对正则表达式的强力支持,这些支持提供了强大且灵活的字符串处理能力。正则...
    樱雨楼阅读 1,091评论 0 1
  • 正则表达式(regular expression)是一种可以在许多现代应用程序和编程语言中使用的特殊形式的代码模式...
    Android轮子哥阅读 11,971评论 4 16
  • 本文译自 制作正则引擎的作者 Jan Goyvaerts 为工具 RegexBuddy 写的教程版权归原作者所有注...
    极客圈阅读 3,394评论 0 25
  • 1. 概述 正则表达式(regular expression)是一种表达文本模式(即字符串结构)的方法,有点像字符...
    JRG_Orange阅读 2,703评论 0 50
  • 这么辛苦不就是为了有口饭吃 这么辛苦的吃饭就是为了活着。 小学一年级的时候,北方冬天,上午课间休息,我们总在向阳的...
    天哗阅读 515评论 0 3

友情链接更多精彩内容