Linux学习--No.13正则表达式

上一节提到根据文本模式进行sed编辑匹配行文本时,往往搭配正则匹配式进行高效检索、编辑。这一次来专门学习下正则表达式的相关知识。

一、基本概念

正则表达式为用户所定义的模式模板(pattern template),利用一系列通配符来描述数据流中的一个或多个字符。针对不同编程语言、应用程序等,正则表达式均有不同的类型,这正是其复杂且强大的原因。
正则表达式是通过正则表达引擎(regular expression engine)来进行解释正则表达模式的。在Linux里,有两种流行的正则表达引擎:POSIX基础正则表达式(basic regular expression,BRE)与POSIX扩展正则表达式(extended regular expression,ERE)。

二、BRE模式

大多Linux工具均符合该引擎规范,有些只符合该规范的子集(比如之前学的sed编辑器)

1、单纯文本匹配

很好理解,但有以下两个注意点

  • 区分大小写;
  • 空格也被当做字符。
echo "This is a test" | sed '/test/p'
echo "This is a test" | sed '/te/p'
echo "This is a test" | sed '/s a/p'

上述代码均能返回下述结果

This is a test

2、特殊字符匹配(通配符)

.*[]^${}\+?|()这些通配符在正则表达式里有特殊的含义。如果想把它们当做普通的文本字符,需要在前面加转义符反斜线(\)。有趣的是,反斜线本身就是一个特殊字符(也许就特殊在转义吧)

2.1、脱字符^ 与美元符 $

(1)脱字符^定义了行首开始的文本模式

echo "This is a test" | sed '/^Th/p' 
#定义了仅匹配以 Th 开头的行文本

注意在上述用法中,脱字符^的位置必须要模式的开头(第一个正斜线后面),否则会被认为是文本字符。
(2)美元符 $定义了行尾结束的文本模式

echo "This is a test" | sed '/st$/p' 
#定义了仅匹配以 st 结尾的行文本

(3)联合使用,删除空白行

sed '/^$/d' data1.txt    
#删除data1.txt里的所有空白行

2.2、点号.

点号.代表了任意单个字符(可以是空格)。

sed -n '/.at/p' data1.txt
#含有hat、cat、bat等的文本行均可被匹配,但是以at开头的文本就不行

2.3、方括号[ ]

方括号[ ]依旧代表一个字符,不过必须属于方括号指代范围内的字符组之一。

sed -n '/[chb]at/p' data1.txt
#匹配含有cat、hat、bat的文本行
sed -n '/[01234]at/p' data1.txt
  • 衍生用法1、方括号排除[^ ]
    依旧代表一个字符,但是要不属于方括号指代范围内的字符组。
sed -n '/[^chb]at/p' data1.txt 
#非c、h、b三种字母与at组合的均可,比如dat、eat、fat....甚至" at"
  • 衍生用法2、方括号区间范围
sed -n '/[0-9]56/p' data1.txt
sed -n '/^[0-9][0-9][0-9][0-9][0-9]$/p' data1.txt    #用于查找仅由5个数字组成的行文本
#用于查找仅由5个数字组成的行文本
sed -n '/[a-m]at/p' data1.txt
sed -n '/[a-mq-y]at/p' data1.txt  
#定义两个选择区间 a-m与q-y

2.4、星号*

星号*放在某字符后面,表明该字符出现了0次或多次。常用!

sed -n '/at*s/p' data1.txt  
# 比如可以匹配as、ats、atts等

不过,它更常见的用法是放在句尾,用来查找一些列拥有相同前缀/后缀的文件(类似于锚字符)

ls -lh li*

除了上述自定义模式外,BRE还包括一些特殊的字符组,可用来匹配特定类型的字符(p434),比如[[:alpha:]] 代表匹配任意字母字符,不论大小写。


  • 此外还有POSIX扩展正则表达式(extended regular expression,ERE)向Linux应用与工具提供了一些额外的符号,比如gawk编辑器能够识别ERE模式。这里简单介绍下这些符号:
    (1)问号 ? 类似于*星号 区别在于问号仅允许前面的字符出现0次或1次;
    (2)加号 +也类似于*星号 区别在于问号仅允许前面的字符出现1次或多次;
    (3)花括号{ } 允许为可重复的正则表达式指定一个上限;
    (4)管道符号| 允许用逻辑OR的方式指定正则表达式引擎要用的两个或多个模式。

以上是关于Linux正则表达式的简单学习。寒假Linux的学习暂时就告一段落吧,要开始学校网课的学习了~ 加油!
参考教材《Linux命令行与shell脚本编程大全》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354