正则表达式
概念
- REGEXP : 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符) 不表示字符表面意思,而表示控制或通配的功能。
- 支持正则表示式的程序:grep,sed,awk,vim,less,nginx,varnish
-分两类:基本正则表达式: BRE
扩展正则表达式: ERE
grep -E ,egrep
grep -F,fgrep
- 元字符分类:字符匹配、匹配次数、位置锚定、分组
基本正则表达式元字符
字符匹配
** . ** 匹配任意单个字符,如:表示r和t之前任意两个字符
[ ] 匹配指定字符中的任意一个,如: 将行中存在a,z,x其中任意一个字母的行筛选出来
[^] 匹配指定字符串中的任意其他字符,如匹配ar和dr以外的所有字符
- 元字符
- [:alnum:] 字母和数字,等价于=0-9a-zA-Z ,[[:alnum:]] =[0-9a-zA-Z]
- [:alpha:] 任何英文大小写字母,等价于a-zA-Z,[[:alpha:]]=[a-zA-Z]
- [:upper:] 大写英文字母
- [:lower:] 小写英文字母
- [:blank:] 空白字符(空格和制表符)
- [:space:] 水平和垂直的空白字符(比[:blank:]表示范围广)
- [:cntrl:] 不可打印的控制字符(退格、删除、警铃....)
- [:digit:] 十进制数 , [:xdigit:]十六进制数
- [:graph:] 可打印的非空白字符
[:print:] 可打印字符
- [:punct:] 标点符号
匹配次数
- 匹配次数:用于要指定次数的字符后面,用于置顶前面的那个字符要出现的次数
-
* 表示前面的那个字符出现0-多次,如:
-
.*表示任意字符出现0-多次,如
-
? 表示前面的那个字符出现0次或者一次,如:
- + 表示前面的字符出现一次以上,至少一次,如:
-
- \ {\} 用于表示前面字符出现的精确次数,或者某个范围,最少几次,最多几次。如:
- 位置锚定
-
^ 表示以什么字符开头的行,如:
-
$ 行尾匹配,用于界定模式的最右边,如:匹配以bash结尾的行
-
^$ ,用于界定一行的内容,如,去掉所有的空白字符,包括空格,tab,回车等等,后面一个只能去掉空行。
-
-
\< 进行单词的左边锚定,明白单词的一般组成,字母数字下划线,汉字,例如:
-
/> 单词的游边界,相当于从右边开始匹配单词,如
-
/< >界定一个完整的单词表达,如:这种情况可以达到一种精确的单词匹配,当然中间可以使用通配符。
- \b 同<,<>等价于=\b.. \b
分组
- () 将多个字符捆绑在一起,当做一个整体进行处理,如:这里匹配的是ro这个字符串。
-
后向引用 分组括号里面的模式匹配到的内容会被存储到内部变量里面,分别被命名为\1,\2.....。需要注意一点这些变量里面存储的值是模式匹配到的符合条件的值。例如:
| 或,前后两个模式条件,符合其中一个即可,如:
** 注 ** 写正则表达式的时候,避免出现问题,最好加上双引号
以上例子,变红的内容是符合条件的,如果不想未匹配的内容出现,加上-o参数即可
扩展正则表达式和基本正则表达式
- 基本一致
- 不同
- 用egrep 或者 grep -E
- ?,+,{},(),| 使用的时候不用加斜线(/)