20170726 文本处理工具（二） grep 正则表达式

一、grep 文本搜索工具

语法：

grep [OPTIONS] PATTERN [FILE...]

选项：

-v     <!--显示不被pattern匹配到的行-->
-i     <!--忽略字符大小写-->
-n     <!--显示匹配的行号-->
-c     <!--统计匹配的行数-->
-o     <!--仅显示匹配到的字符串-->
-q     <!--静默模式，不输出任何信息，可以查看$?判断命令是否成功执行-->
-A #   <!--after, 后#行-->
-B #   <!--before, 前#行-->
-C #   <!--context, 前后各#行-->
-e     <!--实现多个选项间的逻辑or关系-->
-w     <!--匹配整个单词-->
-E     <!--使用ERE扩展正则表达式，相当于egrep命令-->
-F     <!--相当于fgrep，不支持正则表达式-->

实验：

在/etc/passwd中搜索不包含nologin字符串的行
命令：grep -v nologin /etc/passwd
在/etc/passwd中搜索包含tom（不分大小写）字符串的行
命令：grep -i tom /etc/passwd
在/etc/passwd显示所有搜索到的bash字符串，并在字符串前输出其所在的行号
命令：grep -on bash /etc/passwd
在/etc/passwd中搜索包含mail的行，并且显示其后三行/前三行/前后各三行
命令：

grep -A 3 mail /etc/passwd
grep -B 3 mail /etc/passwd
grep -C 3 mail /etc/passwd

在/etc/passwd中搜索有单词root,shutdown,bin的行
命令：grep -we root -we shutdown -we bin /etc/passwd

二、正则表达式 regular expressions

（一）定义：

由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能。

（二）程序支持：

grep, sed, awk, vim等

（三）分类：

基本正则表达式(BRE)
扩展正则表达式(ERE)

（四）元字符分类：

字符匹配、匹配次数、位置锚定、分组

三、基本正则表达式元字符

（一）字符匹配

.             <!--匹配任意单个字符-->
[]            <!--匹配指定范围内的任意单个字符-->
[^]           <!--匹配指定范围外的任意单个字符-->
[:digit:]     <!--十进制数字-->
[:alpha:]     <!--任何英文大小写字符-->
[:alnum:]     <!--字母和数字-->
[:lower:]     <!--小写字母-->
[:upper:]     <!--大写字母-->
[:blank:]     <!--空白字符（空格和制表符）-->
[:space:]     <!--水平和垂直的空白字符-->

（二）匹配次数

*           <!--匹配前面的字符任意次，包括0次-->
.*          <!--任意长度的任意字符-->
\?          <!--匹配前面的字符0或1次-->
\+          <!--匹配前面的字符至少1次-->
\{n\}       <!--匹配前面的字符n次-->
\{m,n\}     <!--匹配前面的字符至少m次，至多n次-->
\{,n\}      <!--匹配前面的字符至多n次-->
\{n,\}      <!--匹配前面的字符至少n次-->

实验：
新建文本文件file1，文件内容如下：
1. 搜索包含以g开头，中间有任意个数的o，以gle结束的字符串；
  命令：grep go*gle file1
2. 搜索包含以g开头，中间至少2个字母至多5个字母，以gle结束的字符串；
  命令：grep "g[[:alpha:]]\{2,5\}gle" file1
3. 搜索包含以g开头，中间至多1个字母，以gle结束的字符串
  命令：grep "g[[:alpha:]]\?gle" file1

（三）位置锚定

^     <!--行首锚定，用于模式的最左侧-->
$     <!--行尾锚定，用于模式的最右侧-->
^PATTERN$     <!--用于模式匹配整行-->
^$     <!--空行，不含空格-->
^[[:space:]]*$     <!--空白行，可能含空格-->
\< 或\b     <!--词首锚定，用于单词模式的左侧-->
\> 或\b     <!--词尾锚定；用于单词模式的右侧-->
\<PATTERN\>匹配整个单词

（四）分组、或者

分组：\(\)将一个或多个字符捆绑在一起，当作一个整体进行处理
\1表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符，以此类推
例如：

\(string1\+\(string2\)*\)
\1:string1\+\(string2\)*     \2:string2

后向引用：引用前面的分组括号中的模式所匹配字符，而非模式本身
或者：\|

abc\|cd       <!--abc或者cd-->
a\|bc         <!--a或者bc-->
\(a\|b\)c     <!--ac或者bc-->

实验：
1. 在/etc/passwd搜索以a开头的用户及其UID，并且按照UID从大到小排序
  命令：grep "^a" /etc/passwd | cut -d: -f1,3 | sort -nr -t: -k2
2. 在/etc/passwd搜索以s开头中间至少1个英文或数字字符以d结束的单词，英文不分大小写
  命令：grep -i "\<s[[:alnum:]]\+d\>" /etc/passwd
3. 在/etc/passwd搜索用户名以t开头，且同行包含与用户名相同单词的行
  命令：grep "\(^t.*\>\).*\1" /etc/passwd
  
  可以从上图看到，tim用户所在的行后tam单词也匹配模式，但是并未搜索到。这证明后向引用前方分组括号中所匹配的字符，而非模式本身。

四、egrep和扩展正则表达式

（一）egrep

egrep = grep -E ，语法与grep相同

（二）扩展正则表达式元字符

扩展正则表达式与基本正则表达式的语法基本相同，仅部分元字符删减了\符号
字符匹配，扩展正则表达式字符匹配元字符与基本正则表达式相同

.       <!--任意单个字符-->
[]      <!--指定范围的字符-->
[^]     <!--不在指定范围的字符-->

匹配次数

*         <!--匹配前面字符任意次-->
?         <!--0或1次，比基本正则表达式省略了\-->
+         <!--1次或多次，比基本正则表达式省略了\-->
{m}       <!--匹配m次，比基本正则表达式省略了\-->
{m,n}     <!--至少m，至多n次，比基本正则表达式省略了\-->

位置锚定，扩展正则表达式位置锚定元字符与基本正则表达式相同

^          <!--行首锚定-->
$          <!--行尾锚定-->
\<, \b     <!--词首锚定-->
\>, \b     <!--语尾锚定-->

分组、或者

()             <!--分组，比基本正则表达式省略了\-->
\1, \2,...     <!--后向引用-->
abc|cd         <!--abc或者cd，比基本正则表达式省略了\-->
a|bc           <!--a或者bc，比基本正则表达式省略了\-->
(a|b)c         <!--ac或者bc，比基本正则表达式省略了\-->

20170726 文本处理工具（二） grep 正则表达式

一、grep 文本搜索工具

语法：

选项：

实验：

二、正则表达式 regular expressions

（一）定义：

（二）程序支持：

（三）分类：

（四）元字符分类：

三、基本正则表达式元字符

（一）字符匹配

（二）匹配次数

（三）位置锚定

（四）分组、或者

四、egrep和扩展正则表达式

（一）egrep

（二）扩展正则表达式元字符

推荐阅读更多精彩内容