Linux 命令之 awk

AWK 是一种优良的语言级的文本处理工具，是 Linux 环境中现有的功能最强大的数据处理引擎之一。其名称得自于它的创始人 Alfred Aho、Peter Jay Weinberger 和 Brian Wilson Kernighan 姓氏的首个字母。三位创建者已将AWK 正式定义为“样式扫描和处理语言”。

一、`awk` 的模式

awk 处理的对象可以是一个文本文件，或者是通过管道符传过来的内容
无论什么形式的内容其本质上都是通过一个 for 循环处理
每次读入一行进行处理，然后处理下一行，直到整个文件的每一行都被执行完毕
awk 命令的所有操作都是基于 pattern - action 来完成的
模式 pattern 用于筛选，操作 action 用于处理字段
pattern 可以使用正则表达式
一个完整的 awk 操作，没有 pattern 则匹配全部文本，没有 action 则打印匹配内容

1.1 一个简单的例子：

shiyanlou:~/ $ ll Desktop 
总用量 40K
-rwxr-xr-x 1 shiyanlou shiyanlou  179  8月 17  2016 brackets.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 9.0K  8月 17  2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K  8月 17  2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  272  9月 11  2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  180  9月  8  2017 sublime.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5.2K  8月 17  2016 xfce4-terminal.desktop
# 筛选包含字符 'g' 的行，$0 表示打印筛选得到的全部内容，可省略
shiyanlou:~/ $ ll Desktop | awk '/g/{print $0}' 
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K  8月 17  2016 gvim.desktop
# 默认以空格为分隔符，打印第 5、9 个
shiyanlou:~/ $ ll Desktop | awk '/g/{print $5,$9}'  
767 gedit.desktop
3.4K gvim.desktop
# 不写 action 默认打印全部筛选结果
shiyanlou:~/ $ ll Desktop | awk '/g/'   
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K  8月 17  2016 gvim.desktop
shiyanlou:~/ $

1.2 ~ 对某段进行匹配，!~ 反筛选：

shiyanlou:~/ $ ll Desktop | awk '/g[ev]/'   # 默认使用正则匹配全行
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3.4K  8月 17  2016 gvim.desktop
# 针对某一段使用正则，需要加 "~"，反筛选需要使用 "!~"
shiyanlou:~/ $ ll Desktop | awk '$9!~/g[ev]/{print $9}'  

brackets.desktop
firefox.desktop
idle-python3.5.desktop
sublime.desktop
xfce4-terminal.desktop

1.3 关系运算符：

运算符	含义
<	小于
<=	小于等于
==	等于
!=	不等于
>=	大于等于
>	大于

shiyanlou:~/ $ ls -l Desktop | awk '$5 > 1000'
-rwxr-xr-x 1 shiyanlou shiyanlou 9177  8月 17  2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417  8月 17  2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5320  8月 17  2016 xfce4-terminal.desktop
shiyanlou:~/ $

1.4 逻辑运算符：|| 或 && 与 ! 非

shiyanlou:~/ $ ls -l Desktop 
总用量 40
-rwxr-xr-x 1 shiyanlou shiyanlou  179  8月 17  2016 brackets.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 9177  8月 17  2016 firefox.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417  8月 17  2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  272  9月 11  2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  180  9月  8  2017 sublime.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 5320  8月 17  2016 xfce4-terminal.desktop
shiyanlou:~/ $ ls -l Desktop | awk '$5 > 1000 && $5 < 8000 {print $5,$9}'
3417 gvim.desktop
5320 xfce4-terminal.desktop
shiyanlou:~/ $

1.5 , 隔开的两个筛选模式，匹配所有符合这两个模式之间的行：

shiyanlou:~/ $ ls -l Desktop | awk '$5 == 767, $7 == 8 {print $0}' 
-rwxr-xr-x 1 shiyanlou shiyanlou  767  8月 17  2016 gedit.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou 3417  8月 17  2016 gvim.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  272  9月 11  2017 idle-python3.5.desktop
-rwxr-xr-x 1 shiyanlou shiyanlou  180  9月  8  2017 sublime.desktop
shiyanlou:~/ $

1.6 BEGIN 是一种特殊模式，作用是在处理数据前打印点儿什么；END 是处理完数据后打印点儿什么：

shiyanlou:~/ $ ls -l Desktop | awk '   
pipe quote> BEGIN {print "Hello World"} 
pipe quote> {print $1, $9}
pipe quote> END {print "End"}'
Hello World
总用量 40K
-rwxr-xr-x brackets.desktop
-rwxr-xr-x firefox.desktop
-rwxr-xr-x gedit.desktop
-rwxr-xr-x gvim.desktop
-rwxr-xr-x idle-python3.5.desktop
-rwxr-xr-x sublime.desktop
-rwxr-xr-x xfce4-terminal.desktop
End
shiyanlou:~/ $

二、基本选项

2.1 -F 指定分隔符，前文提到默认以空格作为分隔符：

shiyanlou:~/ $ head -5 /etc/passwd
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
shiyanlou:~/ $ head -5 /etc/passwd | awk -F : '{print $1}'
root
daemon
bin
sys
sync
# 用 FS 亦可指定分隔符，它是内置变量，第三部分会讲一些其它内置变量
shiyanlou:~/ $ head -5 /etc/passwd | awk 'BEGIN{FS=":"} {print $1}'  
root
daemon
bin
sys
sync
shiyanlou:~/ $

2.2 -f 选项可执行 awk 脚本，类似 sed 的 -f 选项：

[shiyanlou@haha ~]$ which awk
/usr/bin/awk
[shiyanlou@haha ~]$ cat -n test.awk 
     1  #!/usr/bin/awk -f
     2  
     3  BEGIN {FS=":"} {print $1}
[shiyanlou@haha ~]$ chmod +x test.awk 
[shiyanlou@haha ~]$ head -5 /etc/passwd | ./test.awk 
root
daemon
bin
sys
sync
[shiyanlou@haha ~]$

2.3 -v 选项可使外部变量传入命令中：

shiyanlou:~/ $ var=100 
shiyanlou:~/ $ echo | awk -v var=$var '{print var}'
100
shiyanlou:~/ $ echo | awk -v var='Hello World' '{print var}' 
Hello World
shiyanlou:~/ $

三、内置变量和格式化打印

3.1 OFS 设置输出时的分隔符：

shiyanlou:~/ $ cat ok.txt
I love Linux
shiyanlou:~/ $ awk '{OFS=":"}{print $1,$2}' ok.txt
I:love
shiyanlou:~/ $ awk '{OFS="::"; print $1,$2}' ok.txt
I::love
shiyanlou:~/ $ awk '{
quote> OFS=":"
quote> print $3,$2,$1
quote> }' ok.txt 
Linux:love:I
shiyanlou:~/ $ awk '{
quote> OFS="\n"
quote> print $1,$2,$3
quote> }' ok.txt 
I
love
Linux
shiyanlou:~/ $

3.2 自定义变量：

shiyanlou:~/ $ nl awkf
     1  #!/usr/bin/awk -f
       
     2  BEGIN{
     3      print "BYTES", "\t", "FILE"
     4  }
       
     5  {
     6      sum+=$5  # sum 是自定义变量，默认值为 0，第 5 列是文件大小
     7      filenum++  # ++ 表示自增
     8      print $5, "\t", $9
     9  }
       
    10  END{
    11      print "Total:", sum, "bytes (" filenum-1 " files)"
    12  }
shiyanlou:~/ $ ls -l 
总用量 20
drwxrwxr-x 20 shiyanlou shiyanlou 4096  8月 21  2017 anaconda3
-rwxrwxr-x  1 shiyanlou shiyanlou  266  7月 29 15:34 awkf
drwxrwxr-x  2 shiyanlou shiyanlou 4096  8月 17  2016 Code
drwxrwxr-x  2 shiyanlou shiyanlou 4096  9月 11  2017 Desktop
-rw-rw-r--  1 shiyanlou shiyanlou   13  7月 29 15:14 ok.txt
shiyanlou:~/ $ ls -l | ./awkf
BYTES    FILE
     
4096     anaconda3
266      awkf
4096     Code
4096     Desktop
13   ok.txt
Total: 12567 bytes (5 files)
shiyanlou:~/ $

3.3 NF 此内置变量的值为当前行的字段数
修改上文的 awkf 文件，只统计文件的大小，不统计目录：

shiyanlou:~/ $ nl awkf
     1  #!/usr/bin/awk -f
       
     2  BEGIN{
     3      print "BYTES", "\t", "FILE"
     4  }
       
     5  NF == 9 && /^-/{   # 筛选字段数为 9 且以 '-' 开头的行
     6      sum+=$5
     7      filenum++
     8      print $5, "\t", $9
     9  }
       
    10  NF == 9 && /^d/{   # 筛选字段数为 9 且以 'd' 开头的行
    11      print "<dir>", "\t", $9
    12  }
       
    13  END{
    14      print "Total:", sum, "bytes (" filenum " files)"
    15  }
shiyanlou:~/ $ ls -l | ./awkf 
BYTES    FILE
<dir>    anaconda3
238      awkf
<dir>    Code
<dir>    Desktop
13   ok.txt
Total: 251 bytes (2 files)
shiyanlou:~/ $

3.4 printf 格式化打印：
%d 十进制整数，%s 字符串，%f 浮点数

shiyanlou:~/ $ nl awkf 
     1  ls -l | awk '
       
     2  BEGIN{
     3      print "BYTES", "\t", "FILE"
     4  }
       
     5  NF == 9 && /^-/{
     6      sum+=$5
     7      filenum++
     8      #print $5, "\t", $9
     9      printf("%d\t%s\n", $5, $9)   # 跟 Python 的语法很像哈~
    10  }
       
    11  NF == 9 && /^d/{
    12      #print "<dir>", "\t", $9
    13      printf("<dir>\t%s\n", $9)
    14  }
       
    15  END{
    16      print "Total:", sum, "bytes (" filenum " files)"
    17  }'
shiyanlou:~/ $ bash awkf
BYTES    FILE
<dir>   anaconda3
298 awkf
<dir>   Code
<dir>   Desktop
13  ok.txt
Total: 311 bytes (2 files)
shiyanlou:~/ $

3.5 条件语句：

shiyanlou:~/ $ cat ok.txt
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84
tom 60 55 70 65 60
bob 99 90 87 93 96
jim 76 75 83 65 66

shiyanlou:~/ $ cat average
{
    total=$2+$3+$4+$5+$6
    avg=total/5
    if(avg>=80)
        grade="良好"
    else
        grade="一般"
    printf("%s %.2f %s\n", $1, avg, grade)  # %.2f 保留两位小数
}
shiyanlou:~/ $ awk -f average ok.txt 
john 87.40 良好
andrea 86.00 良好
jasper 85.60 良好
tom 62.00 一般
bob 93.00 良好
jim 73.00 一般
shiyanlou:~/ $

shiyanlou:~/ $ nl average 
     1  {
     2      total=$2+$3+$4+$5+$6
     3      avg=total/5
     4      if(avg>=90)
     5          grade="A"
     6      else if(avg>=80)
     7          grade="B"
     8      else if(avg>=70)
     9          grade="C"
    10      else
    11          grade="D"
    12      printf("%s\t%.2f\t%s\n", $1, avg, grade)
    13  }
shiyanlou:~/ $ awk -f average ok.txt
john    87.40   B
andrea  86.00   B
jasper  85.60   B
tom     62.00   D
bob     93.00   A
jim     73.00   C
shiyanlou:~/ $

四、循环语句

4.1 while 循环：

shiyanlou:~/ $ awk 'BEGIN {while (i<=100) {total+=i; i++}; print total}'
5050

shiyanlou:~$ nl a 
     1  #!/usr/bin/awk -f
       
     2  BEGIN {
     3      total=0
     4      a=100
     5      while (i<=a) {
     6          total+=i
     7          i++
     8      }
     9      print total
    10  }
shiyanlou:~$ ./a
5050

4.2 do while 循环语句：

mcdx@ubuntu:~$ nl a
     1  #!/usr/bin/awk -f
       
     2  BEGIN {
     3      a=100
     4      do {
     5          total+=i
     6          i++
     7      }
     8      while (i<=a) 
     9      print total
    10  }
mcdx@ubuntu:~$ ./a
5050

mcdx@ubuntu:~$ awk 'BEGIN {do {total+=i; i++} while (i<101); print total}'
5050

4.3 for 循环语句：

mcdx@ubuntu:~$ cat ok.txt 
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84
tom 60 55 70 65 60
bob 99 90 87 93 96
jim 76 75 83 65 66
mcdx@ubuntu:~$ cat a 
#!/usr/bin/awk -f

{ 
    for (i=1; i<=NF; i++) {
        if (i < NF)
            printf("%s\t", $i)
        else
            printf("%s\n", $i)
    }
}

mcdx@ubuntu:~$ ./a ok.txt 
john    85  92  78  94  88
andrea  89  90  75  90  86
jasper  84  88  80  92  84
tom     60  55  70  65  60
bob     99  90  87  93  96
jim     76  75  83  65  66
mcdx@ubuntu:~$

4.4 示例：求阶乘

mcdx@ubuntu:~$ nl a.sh 
     1  awk '
       
     2  BEGIN {
     3      printf("输入一个数儿：")
     4  }
       
     5  $1 ~ /^[0-9]+$/ {
     6      ans=1
     7      num=$1
     8      for (i=1; i<=num; i++)
     9          ans*=i
    10      printf("此数的阶乘结果为：%d\n", ans)
    11      exit
    12  }'

mcdx@ubuntu:~$ bash a.sh 
输入一个数儿：4
此数的阶乘结果为：24
mcdx@ubuntu:~$ bash a.sh 
输入一个数儿：9
此数的阶乘结果为：362880
mcdx@ubuntu:~$

4.5 统计文件中全部单词的数量：

zds@ubuntu:~$ nl a.sh 
     1  #!/bin/bash
       
     2  # $# 的值为参数数量，脚本文件不算在内
     3  # $0 的值为脚本文件名
     4  if [ $# -ne 1 ]
     5      then echo "Usage: $0 filename"
     6      exit
     7  fi
       
     8  # -o 只打印匹配的字符串，无此选项打印匹配的行
     9  # [:alpha:] 匹配大小写字母，\b 设置边界为字母
    10  # \b[[:alpha:]]+\b 匹配单词
    11  # | 前面的代码会打印文件中的全部单词，每个单词占一行，交由 awk 处理
    12  egrep -o "\b[[:alpha:]]+\b" $1 | awk '
    13      {c[$0]++}  # 这里用到了下面介绍的数组
    14      END {
    15          printf("%-14s%s\n", "单词", "数量")
    16          for (i in c) {
    17              # %-14s 表示该字段占位 14 个字符
    18              printf("%-14s%d\n", i, c[i])  
    19          }
    20      }
    21  '
zds@ubuntu:~$ nl w.txt 
     1  hello world
     2  hello shiyanlou
     3  hello louplus

zds@ubuntu:~$ bash a.sh a b c
Usage: a.sh filename
zds@ubuntu:~$ bash a.sh w.txt 
单词        数量
louplus       1
shiyanlou     1
hello         3
world         1
zds@ubuntu:~$

五、数组

5.1 一个创建修改多维数组的例子：

mcdx@ubuntu:~$ nl ok.txt 
     1  1,1
     2  2,2
     3  3,3
     4  4,4
     5  5,5
     6  6,6
     7  1,6
     8  2,5
     9  3,4
    10  4,3
    11  5,2
    12  6,1
mcdx@ubuntu:~$ nl a.sh 
     1  BEGIN {
     2      FS=","
     3      w=6
     4      h=6
     5      for (i=1; i<=w; i++) {
     6          for (j=1; j<=h; j++) {
     7              dw[i, j]=0
     8          }
     9      }
    10  }
       
       
    11  {
    12      dw[$1, $2]="X"
    13  }
       
       
    14  END {
    15      for (i=1; i<=w; i++) {
    16          for (j=1; j<=h; j++) 
    17              printf("%s", dw[i, j])
    18          printf("\n")
    19      }
    20  }

mcdx@ubuntu:~$ awk -f a.sh ok.txt 
X0000X
0X00X0
00XX00
00XX00
0X00X0
X0000X

5.2 创建数组的一个简单例子：

zds@ubuntu:~$ nl a.sh 
     1  BEGIN {
     2      a[1]="a"
     3      a[2]="b"
     4      a[3]="c"
     5  }
       
     6  END {
     7      for (i=1; i<=length(a); i++)  # length 获取数组的长度，只有 gawk 能辨识
     8          print i, a[i]
     9  }
zds@ubuntu:~$ echo | gawk -f a.sh 
1 a
2 b
3 c

5.3 对乱序编号的文本进行顺序排列打印：

zds@ubuntu:~$ cat w.txt 
2 hello world
1 hello shiyanlou
3 hello louplus
zds@ubuntu:~$ nl a.sh 
     1  {
     2      if ($1 > max)
     3          max=$1
     4      a[$1]=$0
     5  }
       
     6  END {
     7      for (i=1; i<=max; i++)
     8          print a[i]
     9  }

zds@ubuntu:~$ awk -f a.sh w.txt 
1 hello shiyanlou
2 hello world
3 hello louplus

5.4 计算平均成绩：

zds@ubuntu:~$ nl a.sh 
     1  BEGIN {OFS = "\t"}  # OFS 设置输出分隔符
       
     2  {
     3      total = 0  # 这一行不可省略，用于每次计算前初始化
     4      for (i=2; i<=NF; i++)  # NF 的值为每行的字段数
     5          total += $i
     6      avg = total/(NF-1)
     7      stu_avg[NR] = avg  # NR 表示当前是第几行
     8      if (avg>=90) grade="A"
     9      else if (avg>=80) grade="B"
    10      else if (avg>=70) grade="C"
    11      else grade="D"
    12      ++class_grade[grade]  # ++ 写在前面和写在后面作用一样
    13      print $1, avg, grade
    14  }
       
    15  END {
    16      for (i=1; i<=NR; i++)
    17          avg_sum += stu_avg[i]
    18      class_avg = avg_sum/NR
    19      for (x=1; x<=NR; x++)
    20          if (stu_avg[x]>class_avg)
    21              ++above_avg
    22          else
    23              ++below_avg
    24      printf("\n班级平均分：%.2f\n", class_avg)
    25      printf("高于平均分的人数：%d\n", above_avg)
    26      printf("低于平均分的人数：%d\n\n", below_avg)
    27      for (i in class_grade)
    28          # sort 用于对打印结果进行排序
    29          print i ":", class_grade[i] | "sort"
    30  }
zds@ubuntu:~$ nl w.txt 
     1  john    85  92  78  94  88
     2  andrea  89  90  75  90  86
     3  jasper  84  88  80  92  84
     4  tom     60  55  70  65  60
     5  bob     99  90  87  93  96
     6  jim     76  75  83  65  66

zds@ubuntu:~$ awk -f a.sh w.txt 
john    87.4    B
andrea  86  B
jasper  85.6    B
tom 62  D
bob 93  A
jim 73  C

班级平均分：81.17
高于平均分的人数：4
低于平均分的人数：2

A:  1
B:  3
C:  1
D:  1