AWK
是一种优良的语言级的文本处理工具,是 Linux 环境中现有的功能最强大的数据处理引擎之一。其名称得自于它的创始人 Alfred Aho、Peter Jay Weinberger 和 Brian Wilson Kernighan 姓氏的首个字母。三位创建者已将AWK
正式定义为“样式扫描和处理语言”。
一、awk
的模式
awk
处理的对象可以是一个文本文件,或者是通过管道符传过来的内容
无论什么形式的内容其本质上都是通过一个 for
循环处理
每次读入一行进行处理,然后处理下一行,直到整个文件的每一行都被执行完毕
awk
命令的所有操作都是基于 pattern - action
来完成的
模式 pattern
用于筛选,操作 action
用于处理字段
pattern
可以使用正则表达式
一个完整的 awk
操作,没有 pattern
则匹配全部文本,没有 action
则打印匹配内容
1.1 一个简单的例子:
shiyanlou:~/ $ ll Desktop
总用量 40K
-rwxr-xr-x 1 shiyanlou shiyanlou 179 8月 17 2016 brackets.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 9.0K 8月 17 2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K 8月 17 2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 272 9月 11 2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 180 9月 8 2017 sublime.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5.2K 8月 17 2016 xfce4-terminal.desktop
# 筛选包含字符 'g' 的行,$0 表示打印筛选得到的全部内容,可省略
shiyanlou:~/ $ ll Desktop | awk '/g/{print $0}'
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K 8月 17 2016 gvim.desktop
# 默认以空格为分隔符,打印第 5、9 个
shiyanlou:~/ $ ll Desktop | awk '/g/{print $5,$9}'
767 gedit.desktop
3.4K gvim.desktop
# 不写 action 默认打印全部筛选结果
shiyanlou:~/ $ ll Desktop | awk '/g/'
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K 8月 17 2016 gvim.desktop
shiyanlou:~/ $
1.2 ~
对某段进行匹配,!~
反筛选:
shiyanlou:~/ $ ll Desktop | awk '/g[ev]/' # 默认使用正则匹配全行
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K 8月 17 2016 gvim.desktop
# 针对某一段使用正则,需要加 "~",反筛选需要使用 "!~"
shiyanlou:~/ $ ll Desktop | awk '$9!~/g[ev]/{print $9}'
brackets.desktop
firefox.desktop
idle-python3.5.desktop
sublime.desktop
xfce4-terminal.desktop
1.3 关系运算符:
运算符 | 含义 |
---|---|
< | 小于 |
<= | 小于等于 |
== | 等于 |
!= | 不等于 |
>= | 大于等于 |
> | 大于 |
shiyanlou:~/ $ ls -l Desktop | awk '$5 > 1000'
-rwxr-xr-x 1 shiyanlou shiyanlou 9177 8月 17 2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417 8月 17 2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5320 8月 17 2016 xfce4-terminal.desktop
shiyanlou:~/ $
1.4 逻辑运算符:||
或 &&
与 !
非
shiyanlou:~/ $ ls -l Desktop
总用量 40
-rwxr-xr-x 1 shiyanlou shiyanlou 179 8月 17 2016 brackets.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 9177 8月 17 2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417 8月 17 2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 272 9月 11 2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 180 9月 8 2017 sublime.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5320 8月 17 2016 xfce4-terminal.desktop
shiyanlou:~/ $ ls -l Desktop | awk '$5 > 1000 && $5 < 8000 {print $5,$9}'
3417 gvim.desktop
5320 xfce4-terminal.desktop
shiyanlou:~/ $
1.5 ,
隔开的两个筛选模式,匹配所有符合这两个模式之间的行:
shiyanlou:~/ $ ls -l Desktop | awk '$5 == 767, $7 == 8 {print $0}'
-rwxr-xr-x 1 shiyanlou shiyanlou 767 8月 17 2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417 8月 17 2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 272 9月 11 2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 180 9月 8 2017 sublime.desktop
shiyanlou:~/ $
1.6 BEGIN
是一种特殊模式,作用是在处理数据前打印点儿什么;END
是处理完数据后打印点儿什么:
shiyanlou:~/ $ ls -l Desktop | awk '
pipe quote> BEGIN {print "Hello World"}
pipe quote> {print $1, $9}
pipe quote> END {print "End"}'
Hello World
总用量 40K
-rwxr-xr-x brackets.desktop
-rwxr-xr-x firefox.desktop
-rwxr-xr-x gedit.desktop
-rwxr-xr-x gvim.desktop
-rwxr-xr-x idle-python3.5.desktop
-rwxr-xr-x sublime.desktop
-rwxr-xr-x xfce4-terminal.desktop
End
shiyanlou:~/ $
二、基本选项
2.1 -F
指定分隔符,前文提到默认以空格作为分隔符:
shiyanlou:~/ $ head -5 /etc/passwd
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
shiyanlou:~/ $ head -5 /etc/passwd | awk -F : '{print $1}'
root
daemon
bin
sys
sync
# 用 FS 亦可指定分隔符,它是内置变量,第三部分会讲一些其它内置变量
shiyanlou:~/ $ head -5 /etc/passwd | awk 'BEGIN{FS=":"} {print $1}'
root
daemon
bin
sys
sync
shiyanlou:~/ $
2.2 -f
选项可执行 awk
脚本,类似 sed
的 -f
选项:
[shiyanlou@haha ~]$ which awk
/usr/bin/awk
[shiyanlou@haha ~]$ cat -n test.awk
1 #!/usr/bin/awk -f
2
3 BEGIN {FS=":"} {print $1}
[shiyanlou@haha ~]$ chmod +x test.awk
[shiyanlou@haha ~]$ head -5 /etc/passwd | ./test.awk
root
daemon
bin
sys
sync
[shiyanlou@haha ~]$
2.3 -v
选项可使外部变量传入命令中:
shiyanlou:~/ $ var=100
shiyanlou:~/ $ echo | awk -v var=$var '{print var}'
100
shiyanlou:~/ $ echo | awk -v var='Hello World' '{print var}'
Hello World
shiyanlou:~/ $
三、内置变量和格式化打印
3.1 OFS
设置输出时的分隔符:
shiyanlou:~/ $ cat ok.txt
I love Linux
shiyanlou:~/ $ awk '{OFS=":"}{print $1,$2}' ok.txt
I:love
shiyanlou:~/ $ awk '{OFS="::"; print $1,$2}' ok.txt
I::love
shiyanlou:~/ $ awk '{
quote> OFS=":"
quote> print $3,$2,$1
quote> }' ok.txt
Linux:love:I
shiyanlou:~/ $ awk '{
quote> OFS="\n"
quote> print $1,$2,$3
quote> }' ok.txt
I
love
Linux
shiyanlou:~/ $
3.2 自定义变量:
shiyanlou:~/ $ nl awkf
1 #!/usr/bin/awk -f
2 BEGIN{
3 print "BYTES", "\t", "FILE"
4 }
5 {
6 sum+=$5 # sum 是自定义变量,默认值为 0,第 5 列是文件大小
7 filenum++ # ++ 表示自增
8 print $5, "\t", $9
9 }
10 END{
11 print "Total:", sum, "bytes (" filenum-1 " files)"
12 }
shiyanlou:~/ $ ls -l
总用量 20
drwxrwxr-x 20 shiyanlou shiyanlou 4096 8月 21 2017 anaconda3
-rwxrwxr-x 1 shiyanlou shiyanlou 266 7月 29 15:34 awkf
drwxrwxr-x 2 shiyanlou shiyanlou 4096 8月 17 2016 Code
drwxrwxr-x 2 shiyanlou shiyanlou 4096 9月 11 2017 Desktop
-rw-rw-r-- 1 shiyanlou shiyanlou 13 7月 29 15:14 ok.txt
shiyanlou:~/ $ ls -l | ./awkf
BYTES FILE
4096 anaconda3
266 awkf
4096 Code
4096 Desktop
13 ok.txt
Total: 12567 bytes (5 files)
shiyanlou:~/ $
3.3 NF
此内置变量的值为当前行的字段数
修改上文的 awkf
文件,只统计文件的大小,不统计目录:
shiyanlou:~/ $ nl awkf
1 #!/usr/bin/awk -f
2 BEGIN{
3 print "BYTES", "\t", "FILE"
4 }
5 NF == 9 && /^-/{ # 筛选字段数为 9 且以 '-' 开头的行
6 sum+=$5
7 filenum++
8 print $5, "\t", $9
9 }
10 NF == 9 && /^d/{ # 筛选字段数为 9 且以 'd' 开头的行
11 print "<dir>", "\t", $9
12 }
13 END{
14 print "Total:", sum, "bytes (" filenum " files)"
15 }
shiyanlou:~/ $ ls -l | ./awkf
BYTES FILE
<dir> anaconda3
238 awkf
<dir> Code
<dir> Desktop
13 ok.txt
Total: 251 bytes (2 files)
shiyanlou:~/ $
3.4 printf
格式化打印:
%d
十进制整数,%s
字符串,%f
浮点数
shiyanlou:~/ $ nl awkf
1 ls -l | awk '
2 BEGIN{
3 print "BYTES", "\t", "FILE"
4 }
5 NF == 9 && /^-/{
6 sum+=$5
7 filenum++
8 #print $5, "\t", $9
9 printf("%d\t%s\n", $5, $9) # 跟 Python 的语法很像哈~
10 }
11 NF == 9 && /^d/{
12 #print "<dir>", "\t", $9
13 printf("<dir>\t%s\n", $9)
14 }
15 END{
16 print "Total:", sum, "bytes (" filenum " files)"
17 }'
shiyanlou:~/ $ bash awkf
BYTES FILE
<dir> anaconda3
298 awkf
<dir> Code
<dir> Desktop
13 ok.txt
Total: 311 bytes (2 files)
shiyanlou:~/ $
3.5 条件语句:
shiyanlou:~/ $ cat ok.txt
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84
tom 60 55 70 65 60
bob 99 90 87 93 96
jim 76 75 83 65 66
shiyanlou:~/ $ cat average
{
total=$2+$3+$4+$5+$6
avg=total/5
if(avg>=80)
grade="良好"
else
grade="一般"
printf("%s %.2f %s\n", $1, avg, grade) # %.2f 保留两位小数
}
shiyanlou:~/ $ awk -f average ok.txt
john 87.40 良好
andrea 86.00 良好
jasper 85.60 良好
tom 62.00 一般
bob 93.00 良好
jim 73.00 一般
shiyanlou:~/ $
shiyanlou:~/ $ nl average
1 {
2 total=$2+$3+$4+$5+$6
3 avg=total/5
4 if(avg>=90)
5 grade="A"
6 else if(avg>=80)
7 grade="B"
8 else if(avg>=70)
9 grade="C"
10 else
11 grade="D"
12 printf("%s\t%.2f\t%s\n", $1, avg, grade)
13 }
shiyanlou:~/ $ awk -f average ok.txt
john 87.40 B
andrea 86.00 B
jasper 85.60 B
tom 62.00 D
bob 93.00 A
jim 73.00 C
shiyanlou:~/ $
四、循环语句
4.1 while
循环:
shiyanlou:~/ $ awk 'BEGIN {while (i<=100) {total+=i; i++}; print total}'
5050
shiyanlou:~$ nl a
1 #!/usr/bin/awk -f
2 BEGIN {
3 total=0
4 a=100
5 while (i<=a) {
6 total+=i
7 i++
8 }
9 print total
10 }
shiyanlou:~$ ./a
5050
4.2 do while
循环语句:
mcdx@ubuntu:~$ nl a
1 #!/usr/bin/awk -f
2 BEGIN {
3 a=100
4 do {
5 total+=i
6 i++
7 }
8 while (i<=a)
9 print total
10 }
mcdx@ubuntu:~$ ./a
5050
mcdx@ubuntu:~$ awk 'BEGIN {do {total+=i; i++} while (i<101); print total}'
5050
4.3 for
循环语句:
mcdx@ubuntu:~$ cat ok.txt
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84
tom 60 55 70 65 60
bob 99 90 87 93 96
jim 76 75 83 65 66
mcdx@ubuntu:~$ cat a
#!/usr/bin/awk -f
{
for (i=1; i<=NF; i++) {
if (i < NF)
printf("%s\t", $i)
else
printf("%s\n", $i)
}
}
mcdx@ubuntu:~$ ./a ok.txt
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84
tom 60 55 70 65 60
bob 99 90 87 93 96
jim 76 75 83 65 66
mcdx@ubuntu:~$
4.4 示例:求阶乘
mcdx@ubuntu:~$ nl a.sh
1 awk '
2 BEGIN {
3 printf("输入一个数儿:")
4 }
5 $1 ~ /^[0-9]+$/ {
6 ans=1
7 num=$1
8 for (i=1; i<=num; i++)
9 ans*=i
10 printf("此数的阶乘结果为:%d\n", ans)
11 exit
12 }'
mcdx@ubuntu:~$ bash a.sh
输入一个数儿:4
此数的阶乘结果为:24
mcdx@ubuntu:~$ bash a.sh
输入一个数儿:9
此数的阶乘结果为:362880
mcdx@ubuntu:~$
4.5 统计文件中全部单词的数量:
zds@ubuntu:~$ nl a.sh
1 #!/bin/bash
2 # $# 的值为参数数量,脚本文件不算在内
3 # $0 的值为脚本文件名
4 if [ $# -ne 1 ]
5 then echo "Usage: $0 filename"
6 exit
7 fi
8 # -o 只打印匹配的字符串,无此选项打印匹配的行
9 # [:alpha:] 匹配大小写字母,\b 设置边界为字母
10 # \b[[:alpha:]]+\b 匹配单词
11 # | 前面的代码会打印文件中的全部单词,每个单词占一行,交由 awk 处理
12 egrep -o "\b[[:alpha:]]+\b" $1 | awk '
13 {c[$0]++} # 这里用到了下面介绍的数组
14 END {
15 printf("%-14s%s\n", "单词", "数量")
16 for (i in c) {
17 # %-14s 表示该字段占位 14 个字符
18 printf("%-14s%d\n", i, c[i])
19 }
20 }
21 '
zds@ubuntu:~$ nl w.txt
1 hello world
2 hello shiyanlou
3 hello louplus
zds@ubuntu:~$ bash a.sh a b c
Usage: a.sh filename
zds@ubuntu:~$ bash a.sh w.txt
单词 数量
louplus 1
shiyanlou 1
hello 3
world 1
zds@ubuntu:~$
五、数组
5.1 一个创建修改多维数组的例子:
mcdx@ubuntu:~$ nl ok.txt
1 1,1
2 2,2
3 3,3
4 4,4
5 5,5
6 6,6
7 1,6
8 2,5
9 3,4
10 4,3
11 5,2
12 6,1
mcdx@ubuntu:~$ nl a.sh
1 BEGIN {
2 FS=","
3 w=6
4 h=6
5 for (i=1; i<=w; i++) {
6 for (j=1; j<=h; j++) {
7 dw[i, j]=0
8 }
9 }
10 }
11 {
12 dw[$1, $2]="X"
13 }
14 END {
15 for (i=1; i<=w; i++) {
16 for (j=1; j<=h; j++)
17 printf("%s", dw[i, j])
18 printf("\n")
19 }
20 }
mcdx@ubuntu:~$ awk -f a.sh ok.txt
X0000X
0X00X0
00XX00
00XX00
0X00X0
X0000X
5.2 创建数组的一个简单例子:
zds@ubuntu:~$ nl a.sh
1 BEGIN {
2 a[1]="a"
3 a[2]="b"
4 a[3]="c"
5 }
6 END {
7 for (i=1; i<=length(a); i++) # length 获取数组的长度,只有 gawk 能辨识
8 print i, a[i]
9 }
zds@ubuntu:~$ echo | gawk -f a.sh
1 a
2 b
3 c
5.3 对乱序编号的文本进行顺序排列打印:
zds@ubuntu:~$ cat w.txt
2 hello world
1 hello shiyanlou
3 hello louplus
zds@ubuntu:~$ nl a.sh
1 {
2 if ($1 > max)
3 max=$1
4 a[$1]=$0
5 }
6 END {
7 for (i=1; i<=max; i++)
8 print a[i]
9 }
zds@ubuntu:~$ awk -f a.sh w.txt
1 hello shiyanlou
2 hello world
3 hello louplus
5.4 计算平均成绩:
zds@ubuntu:~$ nl a.sh
1 BEGIN {OFS = "\t"} # OFS 设置输出分隔符
2 {
3 total = 0 # 这一行不可省略,用于每次计算前初始化
4 for (i=2; i<=NF; i++) # NF 的值为每行的字段数
5 total += $i
6 avg = total/(NF-1)
7 stu_avg[NR] = avg # NR 表示当前是第几行
8 if (avg>=90) grade="A"
9 else if (avg>=80) grade="B"
10 else if (avg>=70) grade="C"
11 else grade="D"
12 ++class_grade[grade] # ++ 写在前面和写在后面作用一样
13 print $1, avg, grade
14 }
15 END {
16 for (i=1; i<=NR; i++)
17 avg_sum += stu_avg[i]
18 class_avg = avg_sum/NR
19 for (x=1; x<=NR; x++)
20 if (stu_avg[x]>class_avg)
21 ++above_avg
22 else
23 ++below_avg
24 printf("\n班级平均分:%.2f\n", class_avg)
25 printf("高于平均分的人数:%d\n", above_avg)
26 printf("低于平均分的人数:%d\n\n", below_avg)
27 for (i in class_grade)
28 # sort 用于对打印结果进行排序
29 print i ":", class_grade[i] | "sort"
30 }
zds@ubuntu:~$ nl w.txt
1 john 85 92 78 94 88
2 andrea 89 90 75 90 86
3 jasper 84 88 80 92 84
4 tom 60 55 70 65 60
5 bob 99 90 87 93 96
6 jim 76 75 83 65 66
zds@ubuntu:~$ awk -f a.sh w.txt
john 87.4 B
andrea 86 B
jasper 85.6 B
tom 62 D
bob 93 A
jim 73 C
班级平均分:81.17
高于平均分的人数:4
低于平均分的人数:2
A: 1
B: 3
C: 1
D: 1