Sed and awk 笔记之 sed 篇:基础命令

sed篇总共分成6章:(简书版)

Sed&awk笔记之sed篇:简单介绍

Sed&awk笔记之sed篇:模式空间与地址匹配

Sed&awk笔记之sed篇:sed基础命令

Sed&awk笔记之sed篇:高级命令(一)

Sed&awk笔记之sed篇:高级命令(二)

Sed&awk笔记之sed篇:实战

在开始之前,首先回顾上一篇的重点内容:地址匹配。上一篇中介绍过,地址可以指定0个,1个或者2个。地址的形式可以为斜杠分隔的正则表达式(例如/test/),行号(例如3,5)或者特殊符号(例如$)。如果没有指定地址,说明sed应用的编辑命令是全局的;如果是1个地址,编辑命令只是应用到匹配的那一行;如果是一对地址,编辑命令则应用到该地址对匹配的行范围。关于地址匹配的内容具体可以看Sed命令地址匹配问题总结

书中说,对于sed编辑命令的语法有两种约定,分别是

[address]command              # 第一种

[line-address]command          # 第二种

第一种[address]是指可以为任意地址包括地址对,第二种[line-address]是指只能为单个地址。文中指出,例如i(后方插入命令)、a(前方追加命令)以及=(打印行号命令)等都属于第二种命令,但是实际上我在ArchLinux上测试,指定地址对也没有报错。不过为了兼容性,建议按作者所说的做。

以下是要介绍的全部基础命令:

名称命令语法说明

替换s[address]s/pattern/replacement/flags替换匹配的内容

删除d[address]d删除匹配的行

插入i[line-address]i\

text在匹配行的前方插入文本

追加a[line-address]a\

text在匹配行的后方插入文本

行替换c[address]c\

text将匹配的行替换成文本text

打印行p[address]p打印在模式空间中的行

打印行号=[address]=打印当前行行号

打印行l[address]l打印在模式空间中的行,同时显示控制字符

转换字符y[address]y/SET1/SET2/将SET1中出现的字符替换成SET2中对应位置的字符

读取下一行n[address]n将下一行的内容读取到模式空间

读文件r[line-address]r file将指定的文件读取到匹配行之后

写文件w[address]w file将匹配地址的所有行输出到指定的文件中

退出q[line-address]q读取到匹配的行之后即退出

替换命令: s

替换命令的语法是:

[address]s/pattern/replacement/flags

其中[address]是指地址,pattern是替换命令的匹配表达式,replacement则是对应的替换内容,flags是指替换的标志位,它可以包含以下一个或者多个值:

n: 一个数字(取值范围1-512),表明仅替换前n个被pattern匹配的内容;

g: 表示全局替换,替换所有被pattern匹配的内容;

p: 仅当行被pattern匹配时,打印模式空间的内容;

w file:仅当行被pattern匹配时,将模式空间的内容输出到文件file中;

如果flags为空,则默认替换第一次匹配:

$ echo"column1 column2 column3 column4"|sed's/ /;/'column1;column2 column3 column4

如果flags中包含g,则表示全局匹配:

$ echo"column1 column2 column3 column4"|sed's/ /;/g'column1;column2;column3;column4

如果flags中明确指定替换第n次的匹配,例如n=2:

$ echo"column1 column2 column3 column4"|sed's/ /;/2'column1 column2;column3 column4

当替换命令的pattern与地址部分是一样的时候,比如/regexp/s/regexp/replacement/可以省略替换命令中的pattern部分,这在单个编辑命令的情况下没多大用处,但是在组合命令的场景下还是能省不少功夫的,例如下面是摘自文中的一个段落:

The substitute command is applied to the lines matching the address. If no

address is specified, it is applied to all lines that match the pattern, a

regular expression. If a regular expression is supplied as an address, and no

pattern is specified, the substitute command matches what is matched by the

address.  This can be useful when the substitute command is one of multiple

commands applied at the same address. For an example, see the section "Checking

Out Reference Pages" later in this chapter.

现在要在substitute command后面增加("s"),同时在被修改的行前面增加+号,以下是使用的sed命令:

$ sed'/substitute command/{s//&("s")/;s/^/+ /}'paragraph.txt

这里我们用到了组合命令,并且地址匹配的部分和第一个替换命令的匹配部分是一样的,所以后者我们省略了,在replacement部分用到了&这个元字符,它代表之前匹配的内容,这点我们在后面介绍。执行后的结果为:

+ The substitute command("s") is applied to the lines matching the address. If no

address is specified, it is applied to all lines that match the pattern, a

regular expression. If a regular expression is supplied as an address, and no

+ pattern is specified, the substitute command("s") matches what is matched by the

+ address.  This can be useful when the substitute command("s") is one of multiple

commands applied at the same address. For an example, see the section "Checking

Out Reference Pages" later in this chapter.

替换命令的一个技巧是中间的分隔符是可以更改的(这个技巧我们在简洁的Bash编程技巧续篇 - 5. 你知道sed的这个特性吗?中也曾经介绍过),这个技巧在有些地方非常有用,比如路径替换,下面是采用默认的分隔符和使用感叹号作为分隔符的对比:

$ find/usr/local-maxdepth2-type d|sed's/\/usr\/local\/man/\/usr\/share\/man/'$ find/usr/local-maxdepth2-type d|sed's!/usr/local/man!/usr/share/man!'

替换命令中还有一个很重要的部分——replacement(替换内容),即将匹配的部分替换成replacement。在replacemnt部分中也有几个特殊的元字符,它们分别是:

&: 被pattern匹配的内容;

\num: 被pattern匹配的第num个分组(正则表达式中的概念,\(..\)括起来的部分称为分组;

\: 转义符号,用来转义&,\, 回车等符号

&元字符我们已经在上面的例子中介绍过,这里举个例子介绍下\num的用法。在Linux系统中,默认都开了几个tty可以让你切换(ctrl+alt+1, ctrl+alt+2 ...),例如CentOS 6.0+的系统默认是6个:

[root@localhost~]#grep-B1ACTIVE_CONSOLES/etc/sysconfig/init# What ttys should gettys be started on?ACTIVE_CONSOLES=/dev/tty[1-6]

可以通过修改上面的配置来减少开机启动的时候创建的tty个数,比如我们只想要2个:

[root@localhost~]#sed-r-i's!(ACTIVE_CONSOLES=/dev/tty\[1-)6]!\12]!'/etc/sysconfig/init

ACTIVE_CONSOLES=/dev/tty[1-2]

其中-i参数表示直接修改原文件,-r参数是指使用扩展的正则表达式(ERE),扩展的正则表达式中分组的括号不需要用反斜杠转义"(ACTIVE_CONSOLES=/dev/tty\[1-)",这里[是有特殊含义的(表示字符组),所以需要转义。在替换的内容中使用\1来引用这个匹配的分组内容,1代表分组的编号,表示第一个分组。

删除命令: d

删除命令的语法是:

[address]d

删除命令可以用于删除多行内容,例如1,3d会删除1到3行。删除命令会将模式空间中的内容全部删除,并且导致后续命令不会执行并且读入新行,因为当前模式空间的内容已经为空。我们可以试试:

$ sed'2,${d;=}'listJohnDaggett,341KingRoad,PlymouthMA

以上命令尝试在删除第2行到最后一行之后,打印当前行号(=),但是事实上并没有执行该命令。

插入行/追加行/替换行命令: i/a/c

这三个命令的语法如下所示:

# Append 追加

[line-address]a\

text

# Insert 插入

line-address]i\

text

# Change 行替换

[address]c\

text

以上三个命令,行替换命令(c)允许地址为多个地址,其余两个都只允许单个地址(注:在ArchLinux上测试表明,追加和插入命令都允许多个地址,sed版本为GNU sed version 4.2.1

追加命令是指在匹配的行后面插入文本text;相反地,插入命令是指匹配的行前面插入文本text;最后,行替换命令会将匹配的行替换成文本text。文本text并没有被添加到模式空间,而是直接输出到屏幕,因此后续的命令也不会应用到添加的文本上。注意,即使使用-n参数也无法抑制添加的文本的输出。

我们用实际的例子来简单介绍下这三个命令的用法,依然用最初的文本list:

$ cat listJohnDaggett,341KingRoad,PlymouthMAAliceFord,22EastBroadway,RichmondVAOrvilleThomas,11345OakBridgeRoad,TulsaOKTerryKalkas,402LansRoad,BeaverFallsPAEricAdams,20PostRoad,SudburyMAHubertSims,328ABrookRoad,RoanokeVAAmyWilde,334BayshorePkwy,MountainViewCASalCarpenter,736thStreet,BostonMA

现在,我们要在第2行后面添加'------':

$ sed'2a\

--------------------------------------

'listJohnDaggett,341KingRoad,PlymouthMAAliceFord,22EastBroadway,RichmondVA--------------------------------------OrvilleThomas,11345OakBridgeRoad,TulsaOKTerryKalkas,402LansRoad,BeaverFallsPAEricAdams,20PostRoad,SudburyMAHubertSims,328ABrookRoad,RoanokeVAAmyWilde,334BayshorePkwy,MountainViewCASalCarpenter,736thStreet,BostonMA

或者可以在第3行之前插入:

$ sed'3i\

--------------------------------------

'listJohnDaggett,341KingRoad,PlymouthMAAliceFord,22EastBroadway,RichmondVA--------------------------------------OrvilleThomas,11345OakBridgeRoad,TulsaOKTerryKalkas,402LansRoad,BeaverFallsPAEricAdams,20PostRoad,SudburyMAHubertSims,328ABrookRoad,RoanokeVAAmyWilde,334BayshorePkwy,MountainViewCASalCarpenter,736thStreet,BostonMA

我们来测试下文本是否确实没有添加到模式空间,因为模式空间中的内容默认是会打印到屏幕的:

$ sed-n'2a\

--------------------------------------

'list--------------------------------------

通过-n参数来抑制输出后发现插入的内容依然被输出,所以可以判定插入的内容没有被添加到模式空间。

使用行替换命令将第2行到最后一行的内容全部替换成'----':

$ sed'2,$c\

--------------------------------------

'listJohnDaggett,341KingRoad,PlymouthMA--------------------------------------

打印命令: p/l/=

这里纯粹的打印命令应该是指p,但是因为后两者(l和=)和p差不多,并且相对都比较简单,所以这里放到一起介绍。

这三个命令的语法是:

[address]p

[address]=

[address]l

p命令用于打印模式空间的内容,例如打印list文件的第一行:

$ sed-n'1p'listJohnDaggett,341KingRoad,PlymouthMA

l命令类似p命令,不过会显示控制字符,这个命令和vim的list命令相似,例如:

$ echo"column1 column2 column3^M"|sed-n'l'column1\tcolumn2\tcolumn3\r$

=命令显示当前行行号,例如:

$ sed'='list1JohnDaggett,341KingRoad,PlymouthMA2AliceFord,22EastBroadway,RichmondVA3OrvilleThomas,11345OakBridgeRoad,TulsaOK4TerryKalkas,402LansRoad,BeaverFallsPA5EricAdams,20PostRoad,SudburyMA6HubertSims,328ABrookRoad,RoanokeVA7AmyWilde,334BayshorePkwy,MountainViewCA8SalCarpenter,736thStreet,BostonMA

转换命令: y

转换命令的语法是:

[address]y/SET1/SET2/

它的作用是在匹配的行上,将SET1中出现的字符替换成SET2中对应位置的字符,例如1,3y/abc/xyz/会将1到3行中出现的a替换成x,b替换成y,c替换成z。是不是觉得这个功能很熟悉,其实这一点和tr命令是一样的。可以通过y命令将小写字符替换成大写字符,不过命令比较长:

$ echo"hello, world"|sed'y/abcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZ/'HELLO,WORLD

使用tr命令来转换成大写:

$ echo"hello, world"|tr a-z A-Z

HELLO,WORLD

取下一行命令: n

取下一行命令的语法为:

[address]n

n命令为将下一行的内容提前读入,并且将之前读入的行(在模式空间中的行)输出到屏幕,然后后续的命令会应用到新读入的行上。因此n命令也会同d命令一样改变sed的控制流程。

书中给出了一个例子来介绍n的用法,假设有这么一个文本:

$ cat text.H1"On Egypt"Napoleon,pointing to thePyramids,said to his troops:"Soldiers, forty centuries have their eyes upon you."

现在要将.H1后面的空行删除:

$ sed'/.H1/{n;/^$/d}'text.H1"On Egypt"Napoleon,pointing to thePyramids,said to his troops:"Soldiers, forty centuries have their eyes upon you."

读写文件命令: r/w

读写文件命令的语法是:

[line-address]r file

[address]w file

读命令将指定的文件读取到匹配行之后,并且输出到屏幕,这点类似追加命令(a)。我们以书中的例子来讲解读文件命令。假设有一个文件text:

$ cat textForservice,contact any of the following companies:[Company-list]Thankyou.

同时我们有一个包含公司名称列表的文件company.list:

$ cat company.listAlliedMayflowerUnited

现在我们要将company.list的内容读取到[Company-list]之后:

$ sed'/^\[Company-list]/r company.list'textForservice,contact any of the following companies:[Company-list]AlliedMayflowerUnitedThankyou.

更好的处理应当是用公司名称命令替换[Company-list],因此我们还需要删除[Company-list]这一行:

$ sed'/^\[Company-list]/r company.list;/^\[Company-list]/d;'textForservice,contact any of the following companies:[Company-list]Thankyou.

但是结果我们非但没有删除[Company-list],而且company.list的内容也不见了?这是怎么回事呢?

下面是我猜测的过程,读文件的命令会将r空格后面的所有内容都当成文件名,即company.list;/^\[Company-list]/d;,然后读取命令的时候发现该文件不存在,但是sed命令读取不存在的文件是不会报错的。所以什么事都没干成。

我们用-e选项将两个命令分开就正常了:

$ sed-e'/^\[Company-list]/r company.list'-e'/^\[Company-list]/d;'textForservice,contact any of the following companies:AlliedMayflowerUnitedThankyou.

写命令将匹配地址的所有行输出到指定的文件中。假设有一个文件内容如下,前半部分是人名,后半部分是区域名称:

$ cat textAdams,HenriettaNortheastBanks,FredaSouthDennis,JimMidwestGarvey,BillNortheastJeffries,JaneWestMadison,SylviaMidwestSommes,TomSouth

现在我们要将不同区域的人名字写到不同的文件中:

$ sed'/Northeast$/w region.northeast

> /South$/w region.south

> /Midwest$/w region.midwest

> /West$/w region.west'textAdams,HenriettaNortheastBanks,FredaSouthDennis,JimMidwestGarvey,BillNortheastJeffries,JaneWestMadison,SylviaMidwestSommes,TomSouth

查看输出的文件:

$ cat region.region.midwest    region.northeast  region.south      region.west

$ cat region.midwestDennis,JimMidwestMadison,SylviaMidwest

我们也可以试试将所有的w命令放到一起用分号分隔,发现会出下面的错误,它把w空格后面的部分当作文件名,这样就验证了上面的猜测:

$ sed'/Northeast$/w region.northeast;/south$/w region.south;'text

sed:couldn't open file region.northeast;/south$/w region.south;: No such file or directory

退出命令: q

退出命令的语法是

[line-address]q

当sed读取到匹配的行之后即退出,不会再读入新的行,并且将当前模式空间的内容输出到屏幕。例如打印前3行内容:

$ sed'3q'listJohnDaggett,341KingRoad,PlymouthMAAliceFord,22EastBroadway,RichmondVAOrvilleThomas,11345OakBridgeRoad,TulsaOK

打印前3行也可以用p命令:

$ sed-n'3p'listJohnDaggett,341KingRoad,PlymouthMAAliceFord,22EastBroadway,RichmondVAOrvilleThomas,11345OakBridgeRoad,TulsaOK

但是对于大文件来说,前者比后者效率更高,因为前者读取到第N行之后就退出了。后者虽然打印了前N行,但是后续的行还是要继续读入,只不会不作处理。

到此为止,sed基础命令的部分就介绍完了。下面一篇的内容会在最近几天更新上来,主要会介绍sed高级命令。不过一般情况下,会使用基础命令已经差不多了,高级命令不一定需要去了解。

下面是我整理的一份思维导图(附.xmind文件下载地址):

转自:团子的小窝, 本文固定链接:Sed and awk 笔记之 sed 篇:基础命令

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容