grep与正则表达式

上回说到grep与正则表达式关系紧密，今天来详细的谈一谈。

1. 简介

正则表达式，让人不明觉厉，望而却步。但实际上它就相当于数学里的九九乘法表，背会很难，之后做乘法就很快了。

正则表达式也是这样的工具，看起来很难，背会了之后大有帮助。乘法表建立了乘法的基础规则，而正则表达式建立了一系列语法的规则。它是用来匹配符合某种语法的字符串，从而可以对这些筛选出来的字符串进行处理。

所以天然的，在Linux中，grep命令经常与正则表达式结合起来执行一些模糊查询或者指向性查询。

比如一些常见的：

ll | grep -E "*.txt"  
    #列出当前路径下的txt文件
    #-E选项表示使用扩展的正则表达式，grep -E相当于egrep
    #"*"就是一种正则表达式的元字符

【注】其实直接使用ll *.txt也能得到相同结果，这是因为Linux直接把*解释为任意的字符串。

二、正则表达式基础

正则表达式是如何建立语法规则的呢？它定义了一系列的元字符（像"*"这样的），通过元字符和其他字符的组合来表达出一种规则，对待匹配文本进行筛选，只有符合这种规则的文本才能被保留下来。

筛选过程

基本正则表达式所定义的元字符

元字符	作用	例子	例子说明
^	行首定位符	^ty	匹配"t"开头，后面紧跟一个"y"的字符串
$	行尾定位符	txt$	匹配以"t"结尾，前面两个字符是"t""x"的字符串
.	单个字符匹配	s.	匹配"s"后面有一个字符的字符串
*	限定符	s*	"*"表示匹配其前导字符若干次，包括0次。这里是匹配有若干个"s"的字符串
[]	字符集匹配	[abc]	表示匹配"a","b"或"c"的字符串
[^]	字符集不匹配	[^abc	表示不匹配"a","b","c"里的任意字符
()	子表达式	([0-9]{2})?	匹配两个或0个数字
x{m,n}	区间表达式	a{2,3}	表示"a"重复2~3次

扩展正则表达式的元字符

元字符	作用	例子	例子说明
+	限定符，同*	s+	"+"表示匹配其前导字符若干次，至少1次
?	限定符	ss?	"?"表示前面的字符可以重复0或1次。这里是一个"s"后面可能再跟一个"s"

POSIX字符集

不同国家的字符编码很有可能不同，例如：
LANG=C：A B C D ... Z a b c d ...z
LANG=zh_TW：a A b B c C d D ... z Z

当采用第二种编码时，[A-Z]之间会包括小写字母b-z。所以为了避免这种问题，可以使用POSIX字符集来使用特定的字符类。

字符类	说明
[:alnum:]	匹配任意一个字母或者数字，等价于A-Za-z0-9
[:alpha:]	匹配任意一个字母，等价于A-Za-z
[:digit:]	匹配任意一个数字，等价于0-9
[:lower:]	匹配小写字母，等价于a-z
[:upper:]	匹配大写字母，等价于A-Z
[:graph:]	匹配一个看的见的字符，不包括空白字符
[:print:]	匹配一个可以打印的字符
[:blank:]	匹配空格和tab
[:space:]	匹配一个空白字符，包括空格、tab、换行、分页符<
[:punct:]	匹配一个标点符号
[:xdigit:]	匹配一个十六进制数字，即0-9,a-f,A-F

【注意】这些字符类要放在方括号中，才能表示字符集匹配：[[:alnum:]] = [A-Za-z0-9]

三、grep与正则表达式的例子

(1)简单匹配

#匹配空行
egrep "^$" testfile    

#匹配所有英文字符
egrep "[a-zA-Z]" testfile

#匹配tast或者test
egrep "t[ae]st" testfile

#匹配以字符s开头，紧跟若干b的文件名
ll | egrep "^sb*"

#匹配txt文件
ll | egrep "\.txt$"      #这里的"."需要进行转义

(2)复杂一些的匹配

#匹配QQ号码，第一位不能是0，5位以上的数字。
egrep "[1-9][0-9]{4,}" testfile

#匹配IP地址，共4组数字，用"."隔开
egrep "^([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第一组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第二组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第三组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])$"   #第四组数字
        testfile 

#匹配邮箱地址
egrep "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@
       ([a-z0-9]*[-_]?[a-z0-9]+)+[.][a-z]{2,3}([.][a-z]{2})?$"

此处注意：区间表达式{}应该写成"\{\}"表示转义，实验中发现加不加"\"转义都能得出正确结果，但是直接使用基本正则表达式（grep不加-E选项）则不行。所以应该是扩展正则表达式中取消了这个需要转义字符的地方。

四、其他

琐碎的片段：

当需要将元字符当作普通字符匹配的时候，需要转移字符"\"，但是当元字符位于"[]"中时，除了"-"或者"^"极少数元字符以外，其它的自动转义为普通字符。
正则表达式从左到右计算，遵循一定的优先级：转义符"\" > 方括号"[]" > 分组 "()" > 限定符"*,+,?,{}" > 普通字符 > 定位符"^,$" > 或"|"。
匹配同一种字符可能有多种正则表达式的写法。
shell本身不支持正则表达式，但是支持"*"，"?"等通配符。
支持正则表达式的还有sed命令，awk命令。以后可以详述。
参考：
shell从入门到精通，张春晓等编著；
鸟哥的Linux私房菜。

grep与正则表达式