Sed and awk 笔记之 sed 篇：高级命令（二）

sed篇总共分成6章：(简书版)

上一篇中介绍了N/D/P三个命令，它们可以形成多行的模式空间，在一点程度上弥补了单行模式空间的不足，我们用sed编辑文本的能力又进了一步。模式空间是sed内部维护的一个缓存空间，它存放着读入的一行或者多行内容。但是模式空间的一个限制是无法保存模式空间中被处理的行，因此sed又引入了另外一个缓存空间——模式空间（Hold Space）。

保持空间

保持空间用于保存模式空间的内容，模式空间的内容可以复制到保持空间，同样地保持空间的内容可以复制回模式空间。sed提供了几组命令用来完成复制的工作，其它命令无法匹配也不能修改模式空间的内容。

操作保持空间的命令如下所示：

名称命令说明

保存（Hold)h/H将模式空间的内容复制或者追加到保持空间

取回（Get）g/G将保持空间的内容复制或者追加到模式空间

交换（Exchange）x交换模式空间和保持空间的内容

这几组命令提供了保存、取回以及交换三个动作，交换命令比较容易理解，保存命令和取回命令都有大写和小写两种形式，这两种形式的区别是小写的是将会覆盖目的空间的内容，而大写的是将内容追加到目的空间，追加的内容和原有的内容是以\n分隔。

基本使用

我们随便试试这几个命令，假设有如下测试文本:

$ cat text121122111222

1. 首先，仅使用h/H或者g/G命令：

使用h命令：

$ sed'h'text121122111222

使用G命令：

$ sed'G'text121122111222

前者返回的结果正常，因为复制到保持空间的内容并没有取回；后者每一行的后面都多了一个空行，原因是每行都会从保持空间取回一行，追加（大写的G）到模式空间的内容之后，以\n分隔。

2. 使用x命令交换空间

$ sed'x'text121122111

命令执行后，发现前面多了一个空行并且最后一行不见了。我在前面一直强调sed命令用好，要有用大脑回顾命令执行过程的能力：

* 当读入第一行的时候，模式空间中的内容是第一行的内容，而保持空间是空的，这个时候交换两个空间，导致模式空间为空，保持空间为第一行的内容，因此输出为空行；

* 当读入下一行之后，模式空间为第2行的内容，保持空间为第一行的内容，交换后输出第1行的内容；

* 依次读入每一行，输出上一行的内容；

* 直到最后一行被读入到模式空间，交换后输出倒数第二行的内容，而最后一行的内容并没有输出，此时命令执行结束。

深入使用

上面的例子简单地介绍了保持空间命令的基本使用方法，这些命令单个使用可能效果不大，但是组合起来的效果是非常好的。

1.第一个例子：使用逗号拼接行

$ sed'H;$!d;${x;s/^\n//;s/\n/,/g}'text1,11,2,11,22,111,222

上面的命令执行过程是这样的，使用H将每一行都追加到保持空间，这里利用d命令打断常规的命令执行流程，让sed继续读入新的一行，直接到将最后一行都放到保持空间。这个时候使用x命令将保持空间的内容交换到模式空间，模式空间的内容现在是这样的：\n1\n11\n2\n11\n22\n111\n222。替换的步骤分成两个，首先去掉首个回车符，然后把剩余的回车符替换成逗号。

其实上面的过程可以包装成一个常用的函数：

$functionjoin_lines()>{>sed'H;$!d;${x;s/^\n//;s/\n/,/g}'$1>}$ join_lines text1,11,2,11,22,111,222

进一步，我们可以让分隔符可以通过参数设置，另外一方面删除文件名的参数，而改成常见的过滤器命令形式（即通过管道传递输入）：

$functionjoin_lines()>{>localdelim=${1:-,}>sed'H;$!d;${x;s/^\n//;s/\n/'$delim'/g}'>}$ cat text|join_lines';'1;11;2;11;22;111;222

但是如果我们要用&作为符号，就会出现问题:

$ cat text|join_lines'&'11121122111222

上面并没有&作为分隔符，这是因为&是元字符，表示匹配的部分，这里刚好是回车符\n。因此我们需要对分隔符进行转义：

$functionjoin_lines()>{>localdelim=${1:-,}>sed'H;$!d;${x;s/^\n//;s/\n/\'$delim'/g}'

> }

$ cat text | join_lines '&'

1&11&2&11&22&111&222

2.第二个例子：将语句中的特定单词转换成大写

现在有这样的文本，有许多类似这样的find the Match statement语句，其中Match是语句的名称，但是这个单词的大小写不统一，有些地方是小写的，有些地方是首字符大写，现在我们要做的是把这个单词统一转换成大写。

容易联想到的是Sed&awk笔记之sed篇：基础命令中介绍的y命令，利用y命令确实可以做到小写转换成大写，转换的命令是这样的：

y/abcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZ/

但是y命令是会把模式空间的所有内容都转换，这样不能满足我们的需求。但是我们可以利用保持空间保存当前行，然后处理模式空间中的内容：

/the.*statement/{h

s/.*the $.*$ statement.*/\1/y/abcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZ/G

s/$.*$\n$.*the $.*$ statement.*$/\2\1\3/}

老规矩一条一条过上面的命令，为了方便说明，每个命令解释后我都会给出当前模式空间和保持空间的内容。

首先找到需要处理的行（假设当前行为find the Match statement）。

Pattern space: find the Match statement

将当前行保存到保持空间：

Pattern space: find the Match statement