一、名词简介
grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来,最常用。
egrep (extended grep) egrep是grep的扩展,支持更多的re正则表达式元字符,等同于grep -E。
fgrep (fixed grep) 就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示回其自身的字面意义,不再特殊,等同于grep -F,相对于grep和egrep的执行速度最快。
正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
转义字符是这样一个字符,标志着在一个字符序列中出现在它之后的后续几个字符采取一种替代解释。转义字符是元字符(en:metacharacter)的一种特殊情况。通常,判定某字符是否为转义字符由上下文确定。转义字符即标志着转义序列开始的那个字符。
转义字符的英文为Escape character。原本是指ASCII中的十进制27,十六进制1D,八进制033所定义的那个字符。对应于标准键盘左上角的ESC键。老式键盘如果没有ESC键,替代输入是“Ctrl+[”。在老式的计算机外设控制协议,ASCII码的十进制27这个字符开始的一个字符序列,是外设的控制序列,不能按照这些字符的字面意义解释。后来,就把最初的狭义的Escape character的含义引申开来,在各种计算机语言与协议中,标志着一个转义序列开始的那个字符,都叫做Escape character。最常见的一个例子是C程序设计语言中,用反斜线字符“\”作为转义字符,来表示那些不可打印的ASCII控制符。在URI协议中,转义字符是百分号“%”。
二、 表达符集
基本元字符
grep,egrep 都可用,部分基本元字符 egrep或grep -E 使用时不加“\”,详见扩展元字符。
^
锚定行的开始 如:'^grep'匹配所有以grep开头的行。
'匹配所有以grep结尾的行。
.
匹配一个非换行符('\n')的字符如:'gr.p'匹配gr后接一个任意字符,然后是p。
匹配零个或多个先前字符 如:' grep' (注意前有空格)匹配所有零个或多个空格后紧跟grep的行,需要用egrep 或者grep带上 -E 选项。 .*一起用代表任意字符。
[]
匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。
[^]
匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-F和H-Z的一个字母开头,紧跟rep的行。
(..)
分组标记匹配字符,如'(love)',love被标记为1。
<
锚定单词的开始,如:'<grep'匹配包含以grep开头的单词的行。
>
锚定单词的结束,如'grep>'匹配包含以grep结尾的单词的行。
?
匹配零个或一个先前的字符。如:'gre?p'匹配gr后跟一个或零个e字符,然后是p的行。
x{m}
重复字符x,m次,如:'o{5}'匹配包含5个o的行。
x{m,}
重复字符x,至少m次,如:'o{5,}'匹配至少有5个o的行。
x{m,n}
重复字符x,至少m次,不多于n次,如:'o{5,10}'匹配5--10个o的行。
\w
匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。
\W
\w的反置形式,匹配一个或多个非单词字符,如点号句号等。
\b
单词锁定符,如: '\bgrep\b'只匹配grep。
扩展元字符
用于egrep和 grep -E的元字符扩展集
匹配一个或多个先前的字符。如:'[a-z]+able',匹配一个或多个小写字母后跟able的串,如loveable,enable,disable等。
?
作用同?,如:'gre?p'匹配gr后跟一个或零个e字符,然后是p的行。
a|b|c
匹配a或b或c。如:grep|sed匹配grep或sed
()
分组符号,作用等同于(),如:love(able|rs)ov+匹配loveable或lovers,匹配一个或多个ov。
x{m},x{m,},x{m,n}
作用等同同x{m},x{m,},x{m,n}
POSIX字符类
为了在不同国家的字符编码中保持一至,POSIX(The Portable Operating System Interface)增加了特殊的字符类,如[:alnum:]是A-Za-z0-9的另一个写法。要把它们放到[]号内才能成为正则表达式,如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外,都支持POSIX的字符类。
[:alnum:]
文字数字字符
[:alpha:]
文字字符
[:digit:]
数字字符
[:graph:]
非空字符(非空格、控制字符)
[:lower:]
小写字符
[:cntrl:]
控制字符
[:print:]
非空字符(包括空格)
[:punct:]
标点符号
[:space:]
所有空白字符(新行,空格,制表符)
[:upper:]
大写字符
[:xdigit:]
十六进制数字(0-9,a-f,A-F)
三、语法
grep [options] "pattern" FILE
四、常用选项(如没有特殊标识则grep、egrep、fgrep通用)
--color=aoto
匹配的内容高亮显示。
-?
同时显示匹配行上下的?行,如:grep -2 pattern filename同时显示匹配行的上下2行。
-c,--count
只打印匹配的行数,不显示匹配的内容。
-i,--ignore-case
忽略大小写差别。
-o, --only-matching
只显示正则表达式匹配的部分。(show only the part of a line matching PATTERN)
-l,--files-with-matches
打印匹配模板的文件清单。
-L,--files-without-match
打印不匹配模板的文件清单。
-A #
显示匹配到的行时,顺带显示其后面的#个行;
-B #
显示匹配到的行时,顺带显示前面的#行;
-C #
显示匹配到的行时,顺带显示后面的#行;
-n,--line-number
在匹配的行前面打印行号。
-v,--revert-match
反检索,只显示不匹配的行。
-w,--word-regexp
如果被<和>引用,就把表达式做为一个单词搜索。
-R, -r, --recursive
递归的读取目录下的所有文件,包括子目录。 比如grep -R 'pattern' test会在 test 及其子目录下的所有文件中,匹配 pattern。
-E
使用扩展的正则表达式,只有grep有此选项,使用后同egrep。
-F
只有grep有此选项,使用后同fgrep。
五、示例
1、显示/proc/meminfo文件中以不区分大小写的s开头的行;
grep -i "^s" /proc/meminfo
grep "^[Ss]" /proc/meminfo
2、显示/etc/passwd中以nologin结尾的行
grep "nologin$" /etc/passwd
取出默认shell 为/sbin/nologin的用户列表
grep nologin$" /etc/passwd|cut -d: f1
取出默认shell为bash,且其用户ID号最小 的用户的用户名
grep "/bin/bash$" /etc/passwd | sort -t: -k3 -n |head -1|cut -d: -f1
3、显示/etc/iniitab中以#开头,且后面跟一个或多个空白字符,而后又跟了任意非空白字符的行;
grep "#[[:space:]]{1,}[[:space:]]" /etc/inittab
grep "[[:space:]]*#[[:space:]]{1,}[[:space:]]" /etc/inittab
egrep "[[:space:]]*#[[:space:]]{1,}[[:space:]]" /etc/inittab
grep -E "[[:space:]]*#[[:space:]]+[[:space:]]" /etc/inittab
4、显示/etc/rc.d/rc.sysinit中符合形为“任意单个字符n任意字符任意单个字符n”模式的行,即任意单个字符后面跟了个n,n后面有任意长度的字符,而后是任意单个字符后面跟了个n;
grep ".n.*.n" /etc/rc.d/rc.sysinit
要求前n和后n一至:
grep "(.n).*\1" /etc/rc.d/rc.sysinit
grep -E "(.n).*\1" /etc/rc.d/rc.sysinit
如果.n被匹配到,则.n对应的内容就被存储到内存中,并标记为1,然后搜索任意个字符.*,这些字符后面跟着另外一个.n(\1),找到就显示该行。grep -E 或egrep 使用() 不用加 ""转义。
5、显示/boot/grub/grub.conf文件中以一个或多个空白字符开头的行
grep "^[[:space:]]{1,}" /boot/grub/grub.conf
6、显示/etc/inittab文件中以一个数字开头并以一个与开头数字相同的数字结尾的行;
grep "^([0-9]).*\1$" /etc/inittab
找出某文件中的,1位数,或2位数;
grep "<[0-9]{1,2}>"
grep -w "[0-9]{1,2}"
7、找出ifconfig命令结果 中的的1-255之间的整数;
/sbin/ifconfig|grep --color=auto -w -E "[1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]"
/sbin/ifconfig|grep --color=auto -E "<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])>
8、显示/etc/inittab中包含 halt 或 Single的行
grep -E "(halt|Single)" /etc/inittab
egrep "(halt|Single)" /etc/inittab