正则表达式学习笔记

正则表达式（regular expression）用来定义一种模式，相关的 Linux 工具（如 sed、gawk ）以及 Perl 等编程语言可以通过该模式对文本内容进行匹配，再进行替换等操作。
正则表达式并非只有一种实现，在 Linux 环境中，不同的应用程序往往使用不同类型的正则表达式。
最常见的两种有基本正则表达式（BRE）引擎和扩展正则表达式（ERE）引擎。大部分 Linux 工具至少遵循 BRE 对规则的定义，编程语言多使用 ERE 引擎。其中 gawk 就使用了 ERE 引擎。
这里只介绍一些最常见的正则表达式。

普通文本

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、数字、标点符号和一些其他符号。
正则表达式在匹配文本时，不管其定义的模式（区分大小写）出现在文本的什么位置或者出现几次，只要文本中包含此模式，该文本就会传递给相应的 Linux 工具做进一步的处理。
在 sed 和 gawk 等工具中，模式的定义包含在两个 ' / ' 中，下面的 sed -n '/模式/p'命令类似于 Linux 中的 grep ，对符合正则表达式模式的文本进行打印输出。

$ echo "This is a test" | sed -n '/test/p' 
This is a test
$ echo "This is a test" | sed -n '/trial/p'
$
$ sed -n '/ /p' data1.txt
This is a normal line of text.
This is  a line with two spaces.
This is     a line with a TAB.
$ sed -n '/  /p' data1.txt
This is  a line with two spaces.
$ gawk '/\t/{print $0}' data1.txt
This is     a line with a TAB.

上面的例子中涉及到多个空格的匹配，同时非打印字符如制表符（\t）、换行符（\n）等定义在 ERE 中，所以 sed 命令不再支持，例子中使用的是 gawk 。

特殊字符

特殊字符包含以下几种：.*[]^${}\+?|()，它们在正则表达式中有着特殊的含义，如 ' . ' 匹配任何单字符。而对于特殊符号自身的匹配则需要进行转义（在该字符前加上 ' \ ' ），即匹配 ' . ' 需使用 ' \. ' 。

特殊字符的描述如下表所示：

特殊字符	描述
$	匹配输入字符串的结尾位置
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
.	匹配除换行符 \n 之外的任何单字符
[	标记一个中括号表达式的开始
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符
^	匹配输入字符串的开始位置。在方括号中使用时，表示不接受该字符集合
{	标记限定符表达式的开始
\|	指明两项之间的一个选择

$ cat data2.txt
The cost is $4.00
3 / 2
$ sed -n '/\$/p' data2.txt
The cost is $4.00
$ sed -n '/\//p' data2.txt
3 / 2
$ sed -n '///p' data2.txt
sed: 1: "///p": invalid command code /

1. 定位符

定位符用来描述字符串或单词的边界，^ 和 $ 分别指定字符串的开始与结束位置，\b 描述单词的前或后边界，\B 表示非单词边界。当 ^ 并非位于模式开头时，仍当普通字符看待。

$ echo "The book store" | sed -n '/^book/p' 
$
$ echo "books are great" | sed -n '/^book/p' 
Books are great
$ echo "This is a good book" | sed -n '/book$/p'
This is a good book
$ echo "This book is good" | sed -n '/book$/p' 
$
$ echo "This ^ is a test" | sed -n '/s ^/p' 
This ^ is a test

>>> import re
>>> re.findall(r'\bbook','The book store')
['book']
>>> re.findall(r'\bbook','Thebook store')
[]
>>> re.findall(r'book\b','Thebook store')
['book']

\b 和 \B 属于 ERE，上例中使用了 Python 的 re 模块（注意空格如何影响输出）

组合定位符

$ cat data4
this is a test of using both anchors 
I said this is a test
this is a test
I'm sure this is a test.
$ sed -n '/^this is a test$/p' data4 
this is a test

过滤空行

$ cat data5
This is one test line.

This is another test line. 
$ sed '/^$/d' data5
This is one test line. 
This is another test line.

2. ' . ' 符号

' . ' 匹配除 \n 以外的任何单字符，包括空格。所以 /.at/ 匹配 'cat' 和行中间的 'at' （实际为 ' at' ），却不匹配行首的 'at' 。

>>> print(text)
The cat is sleeping.
This test is at line two.
at ten o'clock we'll go home.
>>> re.findall('.at',text)
['cat', ' at']

3. 字符集合

包裹在一对中括号内的多个字符和数字构成一个字符集合，用来限制该位置只匹配集合中出现的字符。如 /[AaEeIiOoUu]/ 可以匹配所有元音字母

$ echo "Yes" | sed -n '/[Yy]es/p' 
Yes
$ echo "yes" | sed -n '/[Yy]es/p' 
yes

字符范围

用连字号可以表示一个字符的范围

模式	含义
[a-z]	匹配所有的小写字母
[A-Z]	匹配所有的大写字母
[a-zA-Z]	匹配所有的字母
[0-9]	匹配所有的数字
[0-9\.\-]	匹配所有的数字、小数点和连字符

当在一组方括号里使用 ^ 时，它表示"非"或"排除"的意思，常常用来剔除某个字符。
如 [^a-z] 匹配除了小写字母以外的所有字符

此外，还有一些特殊的字符集合。

模式	含义
[[:alpha:]]	匹配所有字母
[[:digit:]]	匹配所有数字
[[:alnum:]]	匹配所有字母和数字
[[:blank:]]	匹配所有空格和 Tab 字符
[[:space:]]	匹配所有空白字符：Space, Tab, NL, FF, VT, CR
[[:upper:]]	匹配所有大写字母
[[:lower:]]	匹配所有小写字母
[[:print:]]	匹配所有可打印字符
[[:punct:]]	匹配所有标点符号
[[:xdigit:]]	匹配所有16进制的数字，相当于[0-9a-fA-F]

4. ' * ' 符号

' * ' 表示匹配前面的字符或子表达式零次或多次

$ echo "ik" | sed -n '/ie*k/p' 
ik
$ echo "iek" | sed -n '/ie*k/p' 
iek
$ echo "ieek" | sed -n '/ie*k/p' 
ieek
$ echo "ieeek" | sed -n '/ie*k/p' 
ieeek

' * ' 号还可以应用在字符集合上

$ echo "bt" | sed -n '/b[ae]*t/p' 
bt
$ echo "bat" | sed -n '/b[ae]*t/p' 
bat
$ echo "bet" | sed -n '/b[ae]*t/p' 
bet
$ echo "baaeeaeeat" | sed -n '/b[ae]*t/p' 
baaeeaeeat
$ echo "baakeeet" | sed -n '/b[ae]*t/p' 
$

5. ' ? ' 和 ' + ' 符号

' ? ' 表示匹配前面的字符或子表达式零次或一次

$ echo "bt" | gawk '/be?t/{print $0}' 
bt
$ echo "bet" | gawk '/be?t/{print $0}' 
bet
$ echo "beet" | gawk '/be?t/{print $0}' 
$

' + ' 表示匹配前面的字符或子表达式一次或多次

$ echo "beet" | gawk '/be+t/{print $0}' 
beet
$ echo "bet" | gawk '/be+t/{print $0}' 
bet
$ echo "bt" | gawk '/be+t/{print $0}' 
$

6. 限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。前三种前面已经讲到，除 * 外其他5种都属于 ERE 。

模式	含义
{n}	n 是一个非负整数。匹配确定的 n 次。例如，/o{2}/ 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 'o'。
{n,}	n 是一个非负整数。至少匹配n 次。例如，/o{2,}/ 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 'o'。/o{1,}/ 等价于 /o+/ 。/o{0,}/ 则等价于 /o*/ 。
{n,m}	m 和 n 均为非负整数，其中 n <= m 。最少匹配 n 次且最多匹配 m 次。例如，/o{1,3}/ 将匹配 "fooooood" 中的前三个 'o' 。/o{0,1}/ 等价于 /o?/ 。

$ echo "bt" | gawk --re-interval '/be{1,2}t/{print $0}' 
$
$ echo "bet" | gawk --re-interval '/be{1,2}t/{print $0}' 
bet
$ echo "beet" | gawk --re-interval '/be{1,2}t/{print $0}' 
beet
$ echo "beeet" | gawk --re-interval '/be{1,2}t/{print $0}' 
$

/[ae]{1,2}/ 匹配 'a' , 'e' , 'aa' , 'ae' , 'ee' 。

* 和 + 限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。如匹配 HTML 文档里的标签：

>>> text="<h1>Head Line</h1>"
>>> re.findall(r'<.*>',text)
['<h1>Head Line</h1>']
>>> re.findall(r'<.*?>',text)
['<h1>', '</h1>']

7. ' | ' 符号

管道（' | '）符号用来定义两个或多个模式，且彼此之间是逻辑或的关系。

$ echo "The cat is asleep" | gawk '/cat|dog/{print $0}' 
The cat is asleep
$ echo "The dog is asleep" | gawk '/cat|dog/{print $0}' 
The dog is asleep
$ echo "He has a hat." | gawk '/[ch]at|dog/{print $0}' 
He has a hat.

8. 分组

小括号用于将正则表达式的模式进行分组

$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
Sat
$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}' 
Saturday

上例中的 /Sat(urday)?/ 用于匹配 'Sat' 或者 'Saturday' ，'urday' 加上小括号后被当成一个整体，再附上 ? 符号表示该组合出现零次或一次。

附录：运算符优先级

运算符（由高到低）	描述
反斜杠（\）	转义符
(), (?:), (?=), []	圆括号和方括号
*, +, ?, {n}, {n,}, {n,m}	限定符
^, $, 任何元字符、任何字符	定位点和序列（即：位置和顺序）
替换运算符（\|）	替换，"或"操作

字符具有高于替换运算符（|）的优先级，使得 /m|food/ 匹配 'm' 或 'food' 。若要匹配 'mood' 或 'food' ，可使用括号创建子表达式：/(m|f)ood/ 。

参考资料：

Linux Command Line and Shell Scripting Bible 3rd Edition
正则表达式-菜鸟教程

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,204评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,091评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,548评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,657评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,689评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,554评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,302评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,216评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,661评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,851评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,977评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,697评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,306评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,898评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,019评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,138评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,927评论 2赞 355