本章内容:
- 文本处理
- sed编辑器基础
文本处理
Linux系统提供了两个常见的具备格式化、插入、修改或者删除文本元素的简单命令行编辑器。本节将会介绍Linux世界中最广泛的两个命令行编辑器: sed
和 gawk
#使用sed命令的格式如下:
sed options script file
#gawk程序的基本格式如下:
gawk options program file
在命令行定义编辑器命令
#sed将test替换成big test
$ echo "This is a test" | sed 's/test/big test/'
This is a big test
$
在命令行使用多个编辑器命令
#使用sed -e 可以在命令行执行多个命令
$sed -e 's/brown/green/;s/dog/cat/' data1
The quick green fox jumps over the lazy cat
The quick green fox jumps over the lazy cat
The quick green fox jumps over the lazy cat
$
从文件中读取编辑器命令
#可以在sed命令中-f选项来指定文件
$cat script1
s/brown/green/
s/fox/elephant/
s/dog/cat/
$sed -f script1 data1
The quick green elephant jumps over the lazy cat.
The quick green elephant jumps over the lazy cat.
The quick green elephant jumps over the lazy cat.
$
gawk程序
#由于gawk命令行假定脚本是单个文本字符串,你必须将脚本放在单引号中
gawk '{print "Hello John!"}'
$0 代表整个文本行
$1代表文本行中的第1个数据字段
$2代表文本行中的第2个数据字段
$3代表文本行中的第3个数据字段
$n代表文本行中的第n个数据字段
$ cat data3
One line of test text.
Two lines of test text.
Three lines of test text.
$
$gawk '{print $1}' data3
One
Two
Three
$
#如果你要读取用其他字段分隔符的文件,可以用-F选项指定:
$ gawk -F: '{print $1}' /etc/passwd
root
daemon
bin
sys
sync
在程序脚本中使用多个命令
$ echo "My name is Rich" | gawk '{$4="Christine"; print $0}'
My name is Christine
从文件中读取程序
$ cat script2
{ print $1"'s home directory is " $6}
$
#gawk -f 选项读取文件
$gawk -F: -f script2 /etc/passwd
root 's home directory is /root
daemon 's home directory is /usr/sbin
...
在处理数据前运行脚本
$gawk 'BEGIN {print "Hello World"}'
Hello World
$
$ cat data4
Line 1
Line 2
Line 3
Line 4
$
$gawk 'BEGIN {print "The data4 File Contents:" } {print $0} ' data4
The date4 File Contents:
Line 1
Line 2
Line 3
Line 4
$
在处理数据后运行脚本
$ cat data4
Line 1
Line 2
Line 3
Line 4
$
$gawk 'BEGIN {print "The data4 File Contents:" } { print $0 } END { print "End of File" } ' data4
The date4 File Contents:
Line 1
Line 2
Line 3
Line 4
End of File
$
sed 编辑器基础
#替换模式
s/pattern/replacement/flags
#flags 有4种可用的替换flags
#数字,表明新文本将替换第几处模式匹配的地方
#g,表明新文本将会替换所有已有文本出现的地方
#p,表明原来行的内容要打印出来
#w file,将替换的结果写到文件中
$ sed 's/test/trial/2' data5
This is a test of the trial script
This is the second test of the trial script
$
$ sed 's/test/trial/g' data5
This is a trial of the trial script
This is the second trial of the trial script
$
$ cat data6
This is a test line.
This is a different line.
$
$ sed -n 's/test/trial/p' data6
This is a trial line
# -n 选项将禁止sed编辑器输出。但p替换标记会输出修改过的行。二者配合使用则会只输出被substitude命令修改过的行
#w替换标记会产生同样的输出,不过会输出到指定的文件中:
$ sed 's/test/trial/w test' data6
This is a trial line.
This is a different line.
$
$ cat test
This is a trial line.
#替换字符有/ ! #
#使用地址
[address]command
$ sed '2s/dog/cat/' data1
This quick brown fox jumps over the lazy dog
This quick brown fox jumps over the lazy cat
This quick brown fox jumps over the lazy dog
#使用文本模式过滤器
/pattern/command
$grep Samantha /etc/passwd
Samantha:x:1001:1002:Samantha,4,,:/home/Samantha:/bin/bash
$ sed '/Samantha/s/bash/csh/' /etc/passwd
Samantha:x:1001:1002:Samantha,4,,:/home/Samantha:/bin/csh
$
#组合命令
$sed '2{
> s/fox/elephant/
> s/dog/cat/
> }' data1
#删除行
$sed '3d' data1
This is line number 1
This is line number 2
This is line number 4
$