【Linux 命令行与 shell 脚本编程大全】20 正则表达式

导览

  • 正则表达式模式
    ^:锚定行首
    $:锚定行尾
    .:特殊字符点号用来匹配换行符之外的任意单个字符,至少一个字符。
    []:字符组,配置方括号内的字符或数字,[ch],[Yy]
    [^]:不包含字符组内的字符,[^ch]
    区间:[c-h],[0-9]匹配c到h之间的单词

  • 特殊字符组:
    [[:alpha:]] 匹配任意字母字符,不管是大写还是小写
    [[:alnum:]] 匹配任意字母数字字符0~9、 AZ或az
    [[:blank:]]匹配空格或制表符
    [[:digit:]]匹配0~9之间的数字
    [[:lower:]] 匹配小写字母字符a~z
    [[:print:]] 匹配任意可打印字符
    [[:punct:]] 匹配标点符号
    [[:space:]] 匹配任意空白字符:空格、制表符、 NL、 FF、 VT和CR
    [[:upper:]]匹配任意大写字母字符A~Z
    *:匹配模式的文本中出现0次或多次

  • 扩展的正则表达式(gawk)
    ?:匹配前面的字符出现0次或1次 
    +:配置前面的字符出现1次或多次
    {m}:配置至少出现m次
    {,n}:配置至多出现n次    
    {m,n}:配置至少m次,至多n次
    | 用逻辑OR方式指定正则表达式引擎要用的两个或多个模式。
    ():表达式分组,正则表达式模式也可以用圆括号进行分组。当你将正则表达式模式分组时,该组会被视为一个标准字符。可以像对普通字符一样给该组使用特殊字符
    --re- interval默认情况下, gawk程序不会识别正则表达式间隔。必须指定gawk程序的--re- interval命令行选项才能识别正则表达式间隔。

20.1 什么是正则表达式

20.1.1 定义

正则表达式是你定义的、Linux工具用来过滤文本的模式模板。正则表达式模式利用通配符来代表数据流中的一个或者多个字符

image

20.1.2 正则表达式类型

在Linux中,有两种流行的正则表达式引擎:

  • POSIX基础正则表达式(BRE)引擎 sed
  • POSIX扩展正则表达式(ERE)引擎 gawk

20.2 定于BRE模式

20.2.1 纯文本

[ttxie@41 ~]$ echo "This is a test" |sed -n '/test/p'
This is a test
[ttxie@41 ~]$ echo "This is a test" |sed -n '/trial/p'
[ttxie@41 ~]$ echo "This is a test" |awk '/test/{print $0}'
This is a test
[ttxie@41 ~]$ echo "This is a test" |awk '/trial/{print $0}'

正则表达式并不关心模式在数据流中的位置,也不关心出现了多少次,只要匹配了就会将该字符串传会linux工具。

正则表达式模式区分大小写。

[ttxie@41 ~]$ echo "This is a test" |sed -n '/this/p'
[ttxie@41 ~]$ echo "This is a test" |sed -n '/This/p'
This is a test

模糊匹配

只要定义的文本出现在数据流中,正则就能匹配,反之则不成立

[ttxie@41 ~]$ echo "The books are expensive" |sed -n '/book/p'
The books are expensive

[ttxie@41 ~]$ echo "The book are expensive" |sed -n '/books/p'

20.2.2 特殊字符

正则表达式识别的特殊字符包括:.*[]^${}\+?|(),如果要用某个特殊字符作为文本字符,就必须转义。在前面加上反斜线\

[ttxie@41 ~]$ echo "This cost is \$200" |sed -n '/\$/p'
This cost is $200

要使用正斜线也需要用转义字符

[ttxie@41 ~]$ echo "3 / 2" |sed '/\//p'
3 / 2

20.2.3 锚字符 ^ $

默认情况下,模式出现再数据流中的任何地方,它就能匹配。
有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

20.2.3.1.锁定在行首(脱字符 ^)

^ 定义从数据流中文本行的行首开始的模式。如果模式出现在行首之外的位置,正则表达式模式则无法匹配。
需要用^,就必须将它放在正则表达式中指定的模式前面。

[ttxie@41 ~]$ echo "The book store" |sed -n '/^book/p'
[ttxie@41 ~]$ echo "Books are great" |sed -n '/^Book/p'
Books are great

还可以输入文件:

$sed -n ‘/^this/p’ data.txt

data.txt 中以this开头的行就能找出来。
注意如果将^放到模式开头之外的其他位置,那么就跟普通字符一样了。

[ttxie@41 ~]$ echo "This is ^ test" |sed -n '/s ^/p'
This is ^ test

注意:
如果指定正则表达式模式时只用了脱字符,就不需要用反斜线来转义。
如果你在模式中先指定了脱字符,随后还有一些其他文本,那么你必须在脱字符前用转义字符。

20.2.3.2. 锁定在行尾

用美元符$

[ttxie@41 ~]$ echo "This is a good book" |sed -n '/book$/p'
This is a good book
[ttxie@41 ~]$ echo "This is a good book" |sed -n '/good$/p'
[ttxie@41 ~]$ echo "This is a good book" |sed -n '/books$/p'  

要想匹配,文本模式必须是行的最后一部分。

20.2.3.3. 组合锚点

  1. 比如想到匹配指定内容
    $sed ‘/^this is test line$/p’ data.txt 匹配行 this is test line

  2. 将两个锚点直接组合在一起,之间不加任何东西,这样就过滤出数据流中的空白行。

$sed -n ‘/^$/p’ data.txt 这样可以把data.txt 中的空白行过滤出来。

  1. 过滤掉空白行
[ttxie@41 part20]$ cat data5.txt 
This is one line

this is another line

[ttxie@41 part20]$ sed '/^$/d' data5.txt 
This is one line
this is another line

20.2.4 点号字符 .

用来匹配除换行符之外的任意单个字符。它必须匹配一个字符,如果点字符的位置没有字符那么模式就不成立。

[ttxie@41 part20]$ cat data6.txt 
this is a test line
the cat is sleeping
that is a very nice hat
this test is at line four
at ten o'clock we'll go home

[ttxie@41 part20]$ sed -n '/.at/p' data6.txt
the cat is sleeping
that is a very nice hat
this test is at line four

第4行空格也算一个字符。注意第5行没有匹配到。at前面没有字符了。

20.2.5 字符组 []

可以限定待匹配的具体字符,在正则表达式中,这称为字符组。用[]括起来

[ttxie@41 part20]$ cat data6.txt 
this is a test line
the cat is sleeping
that is a very nice hat
this test is at line four
at ten o'clock we'll go home

[ttxie@41 part20]$ sed -n '/[ch]at/p' data6.txt 
the cat is sleeping
that is a very nice hat

相当于只匹配cat 或者 hat。其他的at就不匹配了。

在不确定大小写的时候,字符组会非常有用:

[ttxie@41 part20]$ echo "yes" |sed -n '/[Yy]es/p'
yes
[ttxie@41 part20]$ echo "Yes" |sed -n '/[Yy]es/p'
Yes

还可以用多个字符组:

[ttxie@41 part20]$ echo "Yes" |sed -n '/[Yy][Ee][Ss]/p'
Yes
[ttxie@41 part20]$ echo "yEs" |sed -n '/[Yy][Ee][Ss]/p'
yEs
[ttxie@41 part20]$ echo "yES" |sed -n '/[Yy][Ee][Ss]/p'
yES

这样就相当于可以限制行的字符个数和区间了

20.2.6 排除型字符组

相当于字符组取反,可以寻找字符组中没有的字符。在前面加个脱字符就好了。

[ttxie@41 part20]$ cat data6.txt 
this is a test line
the cat is sleeping
that is a very nice hat
this test is at line four
at ten o'clock we'll go home

[ttxie@41 part20]$ sed -n '/[^ch]at/p' data6.txt 
this test is at line four

匹配出c和h以外的字符。由于空格字符属于这个范畴,所以它通过了模式匹配,但即使是排除,字符组必须匹配一个字符,所以以at为开头的行仍然未能通过匹配。

20.2.7 区间

  1. 0 – 9,可以直接这么写[0-9] 而不需要[0123456789]
[ttxie@41 part20]$ cat data_num.txt 
60633
46201
223001
4353
22203
[ttxie@41 part20]$ sed -n '/[0-9][0-9][0-9][0-9][0-9]/p' data_num.txt 
60633
46201
223001
22203
[ttxie@41 part20]$ sed -n '/^[0-9][0-9][0-9][0-9][0-9]$/p' data_num.txt 
60633
46201
22203

第一种:它成功过滤掉了过短的数字,但是因为最后一个字符组没有字符可匹配,它也通过了6位数字的;
第二种:指明它的行首和行尾,可以确保只匹配五位数。

  1. 字母也可以
    匹配c到h这个区间的字符。
[ttxie@41 part20]$ cat data6.txt 
this is a test line
the cat is sleeping
that is a very nice hat
this test is at line four
at ten o'clock we'll go home

[ttxie@41 part20]$ sed -n '/[c-h]at/p' data6.txt 
the cat is sleeping
that is a very nice hat

还可以指定多个不连续的区间:指定 a-c 和 h-m区间的字母

[ttxie@41 part20]$ sed -n '/[a-ch-m]at/p' data6.txt 
the cat is sleeping
that is a very nice hat

20.2.8 特殊的字符组

除了自定义的区间(比如[0-9] [a-f])之外,BRE还包含了一些特殊的字符组。见下表

image.png

使用:

[ttxie@41 part20]$ echo "abc" |sed -n '/[[:digit:]]/p'
[ttxie@41 part20]$ echo "abc" |sed -n '/[[:alpha:]]/p'
abc
[ttxie@41 part20]$ echo "abc123" |sed -n '/[[:digit:]]/p'
abc123
[ttxie@41 part20]$ echo "This is , a test" |sed -n '/[[:punct:]]/p'
This is , a test

20.2.9 星号 *

在字符后面放置星号用来表明该字符必须在匹配模式的文本中出现0次多次

[ttxie@41 part20]$ echo "ik" |sed -n '/ie*k/p'   ##出现0次
ik
[ttxie@41 part20]$ echo "iek" |sed -n '/ie*k/p'
iek
[ttxie@41 part20]$ echo "ieek" |sed -n '/ie*k/p'
ieek

*还能用到字符组上,它允许指定可能在文本中出现多次的字符组或区间:

[ttxie@41 part20]$ echo "bt" |sed -n '/b[ae]*t/p'
bt
[ttxie@41 part20]$ echo "bat" |sed -n '/b[ae]*t/p'
bat
[ttxie@41 part20]$ echo "bet" |sed -n '/b[ae]*t/p'
bet
[ttxie@41 part20]$ echo "btt" |sed -n '/b[ae]*t/p'
btt
[ttxie@41 part20]$ echo "baat" |sed -n '/b[ae]*t/p'
baat
[ttxie@41 part20]$ echo "baaeeeet" |sed -n '/b[ae]*t/p'
baaeeeet
[ttxie@41 part20]$ echo "baaeeaeet" |sed -n '/b[ae]*t/p'
baaeeaeet
[ttxie@41 part20]$ echo "baaekaeet" |sed -n '/b[ae]*t/p'
[ttxie@41 part20]$ echo "baaetaeet" |sed -n '/b[ae]*t/p'
baaetaeet

出现t也行?

20.3 扩展正则表达式(POSIX ERE)

提供了一些可以供linux应用和工具使用的额外符号。

gawk程序能够识别ERE模式(会慢一点),sed编辑器不能识别(查找比较快)。

20.3.1 问号?

类似于星号,但是有点不同。

  1. 问号表明前面的字符可以出现0次或1次,不会匹配出现多次的字符。
[ttxie@41 part20]$ echo "bt" |gawk '/be?t/{print $0}'
bt
[ttxie@41 part20]$ echo "bet" |gawk '/be?t/{print $0}'
bet
[ttxie@41 part20]$ echo "beeet" |gawk '/be?t/{print $0}'   #e 出现了2次,这里就不输出了
  1. 还可以跟字符组一起使用:
[ttxie@41 part20]$ echo "bt" |gawk '/b[ae]?t/{print $0}'
bt
[ttxie@41 part20]$ echo "bat" |gawk '/b[ae]?t/{print $0}'
bat
[ttxie@41 part20]$ echo "bet" |gawk '/b[ae]?t/{print $0}'
bet
[ttxie@41 part20]$ echo "baet" |gawk '/b[ae]?t/{print $0}'
[ttxie@41 part20]$ echo "baat" |gawk '/b[ae]?t/{print $0}'
[ttxie@41 part20]$ echo "bot" |gawk '/b[ae]?t/{print $0}'

如果字符组中的字符出现了0次或1次,模式匹配就成立,但如果两个字符都出现了,或者一个字符出现了2次,模式匹配就不成立。

20.3.2 加号+

有点像*号。但是必须出现1次以上。可以有多次,但必须至少出现1次。

[ttxie@41 part20]$ echo "bt" |gawk '/be+t/{print $0}'
[ttxie@41 part20]$ echo "bet" |gawk '/be+t/{print $0}'
bet
[ttxie@41 part20]$ echo "beeeet" |gawk '/be+t/{print $0}'
beeeet

20.3.3 使用花括号{}

花括号允许你为可重复的正则表达式指定一个上限,这通常称为间隔。可以用两种格式来指定区间。

1)m:正则表达式准确出现m次
2)m,n:正则表达式至少出现m次,至多n次。

注意:默认情况下gawk程序不识别正则表达式间隔。必须指定gawk程序的–re-interval命令行选项才能识别正则表达式间隔。

[ttxie@41 part20]$ echo "bet" |gawk --re-interval '/be{1}t/{print $0}'
bet
[ttxie@41 part20]$ echo "bet" |gawk --re-interval '/be{1,2}t/{print $0}'
bet
[ttxie@41 part20]$ echo "beet" |gawk --re-interval '/be{1,2}t/{print $0}'
beet
[ttxie@41 part20]$ echo "beeeet" |gawk --re-interval '/be{1,2}t/{print $0}'
  1. 也适用于字符组
[ttxie@41 part20]$ echo "bt" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
[ttxie@41 part20]$ echo "bat" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
bat
[ttxie@41 part20]$ echo "bet" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
bet
[ttxie@41 part20]$ echo "baet" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
baet
[ttxie@41 part20]$ echo "baat" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
baat
[ttxie@41 part20]$ echo "baaeet" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'
[ttxie@41 part20]$ echo "beaest" |gawk --re-interval '/b[ae]{1,2}t/{print $0}'

如果a或e单独持续1次或2次,模式匹配;ae组合出现1次模式匹配;否则,模式匹配失败;

20.3.4 管道符号|

管道符号允许你在检查数据流时,用逻辑or方式指定正则表达式引擎要用的两个或多个模式。

格式如下:expr1|expr2|……

[ttxie@41 part20]$ echo "The dog is asleep" |gawk '/cat|dog/{print $0}'
The dog is asleep
[ttxie@41 part20]$ echo "The dog is asleep" |gawk '/cat|[dp]og/{print $0}'
The dog is asleep

20.3.5 表达式分组()

正则表达式模式也可以用圆括号进行分组。

  1. 当你将正则表达式模式分组时,该组会被视为一个标准字符。可以像对普通字符一样给该组使用特殊字符。
    ?是匹配0次或1次。
[ttxie@41 part20]$ echo "Sat" |gawk '/Sat(urday)?/{print $0}'
Sat
[ttxie@41 part20]$ echo "Saturday" |gawk '/Sat(urday)?/{print $0}'
Saturday

相当于把urday当做一个整体了, /SatF?/ 跟这个类似,F出现0次或1次。

  1. ()需要转义的用法:
[ttxie@41 part20]$ echo "Sat(urday)" | gawk '/Sat\(urday\)/ {print $0}'
Sat(urday)
[ttxie@41 part20]$ echo "Saturday" | gawk '/Sat\(urday\)/ {print $0}'

还可以将分组和管道符号一起使用来创建可能的模式匹配组:

[ttxie@41 part20]$ echo "cat" | gawk '/(b|c)a(b|t)/ {print $0}'
cat
[ttxie@41 part20]$ echo "cat" | gawk '/[b|c]a[b|t]/ {print $0}'
cat

这样相当于匹配 bab bat cab cat 四种。

20.4 正则表达式实战

20.4.1 目录文件计数

这个例子用于对PATH环境变量中各个目录里的可执行文件进行计数:

[ttxie@41 part20]$ cat countfiles.sh
#!/bin/bash
mypath=$(echo $PATH | sed 's/:/ /g')

count=0
for dir in $mypath
do
   check=$(ls $dir)
   for item in $check
   do
       count=$[ count + 1 ]
   done
   echo "$dir - $count"
   count=0
done
[ttxie@41 part20]$ bash countfiles.sh 
/home/ttxie/miniconda2/bin - 0
/usr/local/bin - 0
/usr/bin - 1679
/usr/local/sbin - 0
/usr/sbin - 644
/home/ttxie/.local/bin - 0
/home/ttxie/bin - 0

20.4.2 验证电话号码

美国的号码格式如下:

(223)456-7890
(223) 456-7890
223-456-7890
223.456.7890
  • 最开始可能有(可以写成: ^\(?
  • 三位区号(第一位必须大于2):[2-9][0-9]{2}
  • 然后又是括号:\)?
  • 然后是分隔符(无空格,有空格,点,减号):(| |-|\.) 第一个|紧跟在(后面用来匹配没有空格的情况。
  • 然后是3位数字:[0-9]{3}
  • 又是分隔符:( |-|.)
  • 最后四位数字:[0-9]{4}
  • 连起来就是:^\(?[2-9][0-9]{2}\)?(| |-|\.)[0-9]{3}( |-|\.)[0-9]{4}$
[ttxie@41 part20]$ cat isPhone.sh 
#!/bin/bash

gawk --re-interval '/^\(?[2-9][0-9]{2}\)?(| |-|\.)[0-9]{3}( |-|\.)[0-9]{4}$/{print $0}'
[ttxie@41 part20]$ echo "317-555-1234" |bash isPhone.sh 
317-555-1234
[ttxie@41 part20]$ echo "0317-555-1234" |bash isPhone.sh 

还可以将整个文件重定向到脚本:

phonelist里面存放着一行一行的数据:

$cat phonelist | ./isphone

这个例子其实也不是特别合理,比如下面几种情况也算是合法号码:

(235.561-4430

  1. 451.4651

总之还是有待优化。

20.4.3 解析邮件地址

邮件地址的形式如下:

username@hostname

  1. username值可用字母数字字符以及以下特殊字符:
  • 点号
  • 单破折线
  • 加号
  • 下划线
  1. hostname部分由一个或多个域名和一个服务器名组成。只允许字母数字字符以及下面的特殊字符:比如(xiaochongyong@amwell-haha.com
  • 点号
  • 下划线
  1. username@相当于:^([a-zA-Z0-9_\-\.\+]+)@

注意: [] 里面是字符组,相当于之前的[xcs]。() 里面是表达式分组

  1. hostname相当于:([a-zA-Z0-9_\-\.\]+)

  2. 后面还要接顶级域名。.com .cn .org 等

只能是字母字符,必须不少于两个字符,长度不超多5个字符:\.([a-zA-Z]{2,5})$

  1. 连起来就是:

^([a-zA-Z0-9_\.\-\+]+)@([a-zA-Z0-9_\.\-]+)\.([a-zA-Z]{2,5})$

[ttxie@41 part20]$ cat isemail.sh 
#!/bin/bash
gawk --re-interval '/^([a-zA-Z0-9_\.\-\+]+)\@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$/ {print $0}'
[ttxie@41 part20]$ echo "222x2iaochongyong@s1amwell-elec.com" | bash isemail.sh 
222x2iaochongyong@s1amwell-elec.com
[ttxie@41 part20]$ echo "222x2iaocho%ngyong@s1amwell-elec.com" | bash isemail.sh
[ttxie@41 part20]$ echo "222x2iaocho%ngyong+@s1amwell-elec.com" |bash isemail.sh

20.5 小结

正则表达式定义了用来过滤数据流中文本的模式模板。

模式由标准文本字符和特殊字符的组成。

正则表达式引擎用特殊字符来匹配一系列单个或多个字符,这类似于其他应用程序中通配符的工作方式

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容