linux常用工具—awk

一、前言

awk是一款非常棒的数据处理工具。相比与sed常常作用于一整行的处理，awk则比较倾向于将一行分成数个“字段”来处理。因此awk适用于处理小型数据。

二、语法说明

awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
awk后面接两个单引号并加上大括号{}来设置想要对数据处理的动作。awk可以处理文件也可以读取来自前一个命令的standardoutput（标准输出流）。awk主要是处理每一行字段内的数据，而默认字段的分隔符为空格键或者[tab]键。举例说明：

使用last -n 5命令获取最后五次登陆者的信息，结果如下：

[root@iZxvryruh5alhlZ ~]# last -n 5
root     pts/1        115.200.208.227  Thu May 17 07:57   still logged in
root     pts/1        36.24.123.198    Mon May 14 06:55 - 14:55  (08:00)
root     pts/2        36.24.123.198    Mon May 14 06:54 - 06:55  (00:01)
root     pts/1        36.24.123.198    Mon May 14 06:49 - 06:53  (00:04)
root     pts/0        36.24.123.198    Sun May 13 14:39 - 00:39  (10:00)

若只想取出账号和登陆者IP，且账号与IP之间用[tab]分隔，如下：

[root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t" $3}'
root    115.200.208.227
root    36.24.123.198
root    36.24.123.198
root    36.24.123.198
root    36.24.123.198

如上所示，每一行每个字段都是有变量名称的，那就是$1,$2,$3等变量名称。分别代表以空格或[tab]分隔的第一个字符串、第二个字符串、第三个字符串。上述$1就是root，$3就是IP。还有一个变量$0，$0代表的是一整行数据。

三、处理流程

整个awk的处理流程是：

读取第一行，并将第一行的数据填入$0,$1,$2等变量中；

根据条件类型的限制，判断是否处理后面的动作；

做完所有的条件类型判断和动作；

若还有后续的“行”的数据，则重复1~3的步骤，直到所有的数据都读完为止。

awk的内置变量：
awk为什么会知道我的数据有几行几列呢？那就需要awk的内置变量帮忙了，如下表所示：

变量名称	代表意义
NF	每一行($0)所拥有的字段总数
NR	目前awk处理的是第几行数据
FS	目前的分隔字符，默认是空格

继续上面的last -n 5，如果我想要：1、列出所有账号，2、列出目前处理的行数，3、改行有多少个字段。那么可以写成这样：

[root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t lines:" NR "\t columes:" NF}'
root     lines:1         columes:10
root     lines:2         columes:10
root     lines:3         columes:10
root     lines:4         columes:10
root     lines:5         columes:10

四、逻辑运算符

之前说过，awk有条件判断，那么自然会有一些逻辑运算符了。如下表所示：

运算符	代表意义
<	小于
>	大于
<=	小于等于
>=	大于等于
==	等于
!=	不等于

我们来实际运用一下逻辑判断吧！在/etc/passwd当中以“：”分隔来作为字段的分隔，该文件第一个字段为账号，第三个字段为UID。我们需要查询的是UID小于10的数据，并只列出账号和UID字段：

先来看看/etc/passwd的所有内容：

[root@iZxvryruh5alhlZ ~]# cat /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:997:User for polkitd:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
ntp:x:38:38::/etc/ntp:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
nscd:x:28:28:NSCD Daemon:/:/sbin/nologin
mysql:x:1000:1000::/home/mysql:/bin/bash

列出UID小于10的数据，并且只列出账号和UID字段：

[root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk '{FS=":"} $3 < 10 {print $1 "\t" $3}'
root:x:0:0:root:/root:/bin/bash
bin     1
daemon  2
adm     3
lp      4
sync    5
shutdown        6
halt    7
mail    8

细心的人会发现第一行数据没有发生变化，这是为什么呢？这是因为，读第一行的时候默认还是以空格分隔的，虽然我们定义了FS=":"，但也只能从第二行生效，怎么办呢？我们需要预先设置变量，利用BEGIN这个关键字，这样做：

[root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "\t" $3}'
root    0
bin     1
daemon  2
adm     3
lp      4
sync    5
shutdown        6
halt    7
mail    8

五、总结

awk可以帮我们完成行数据的处理，条件判断，基本运算等。这里带大家简单介绍了一下，大家如果感兴趣可以了解一下awk更高级的用法。

linux常用工具—awk