一、前言
awk是一款非常棒的数据处理工具。相比与sed常常作用于一整行的处理,awk则比较倾向于将一行分成数个“字段”来处理。因此awk适用于处理小型数据。
二、语法说明
awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
awk后面接两个单引号并加上大括号{}来设置想要对数据处理的动作。awk可以处理文件也可以读取来自前一个命令的standardoutput(标准输出流)。awk主要是处理每一行字段内的数据,而默认字段的分隔符为空格键或者[tab]键。举例说明:
- 使用
last -n 5
命令获取最后五次登陆者的信息,结果如下:
[root@iZxvryruh5alhlZ ~]# last -n 5
root pts/1 115.200.208.227 Thu May 17 07:57 still logged in
root pts/1 36.24.123.198 Mon May 14 06:55 - 14:55 (08:00)
root pts/2 36.24.123.198 Mon May 14 06:54 - 06:55 (00:01)
root pts/1 36.24.123.198 Mon May 14 06:49 - 06:53 (00:04)
root pts/0 36.24.123.198 Sun May 13 14:39 - 00:39 (10:00)
- 若只想取出账号和登陆者IP,且账号与IP之间用[tab]分隔,如下:
[root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t" $3}'
root 115.200.208.227
root 36.24.123.198
root 36.24.123.198
root 36.24.123.198
root 36.24.123.198
如上所示,每一行每个字段都是有变量名称的,那就是$1,$2,$3等变量名称。分别代表以空格或[tab]分隔的第一个字符串、第二个字符串、第三个字符串。上述$1就是root,$3就是IP。还有一个变量$0,$0代表的是一整行数据。
三、处理流程
- 整个awk的处理流程是:
- 读取第一行,并将第一行的数据填入$0,$1,$2等变量中;
- 根据条件类型的限制,判断是否处理后面的动作;
- 做完所有的条件类型判断和动作;
- 若还有后续的“行”的数据,则重复1~3的步骤,直到所有的数据都读完为止。
- awk的内置变量:
awk为什么会知道我的数据有几行几列呢?那就需要awk的内置变量帮忙了,如下表所示:
变量名称 | 代表意义 |
---|---|
NF | 每一行($0)所拥有的字段总数 |
NR | 目前awk处理的是第几行数据 |
FS | 目前的分隔字符,默认是空格 |
继续上面的last -n 5
,如果我想要:1、列出所有账号,2、列出目前处理的行数,3、改行有多少个字段。那么可以写成这样:
[root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t lines:" NR "\t columes:" NF}'
root lines:1 columes:10
root lines:2 columes:10
root lines:3 columes:10
root lines:4 columes:10
root lines:5 columes:10
四、逻辑运算符
之前说过,awk有条件判断,那么自然会有一些逻辑运算符了。如下表所示:
运算符 | 代表意义 |
---|---|
< | 小于 |
> | 大于 |
<= | 小于等于 |
>= | 大于等于 |
== | 等于 |
!= | 不等于 |
我们来实际运用一下逻辑判断吧!在/etc/passwd当中以“:”分隔来作为字段的分隔,该文件第一个字段为账号,第三个字段为UID。我们需要查询的是UID小于10的数据,并只列出账号和UID字段:
- 先来看看/etc/passwd的所有内容:
[root@iZxvryruh5alhlZ ~]# cat /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:997:User for polkitd:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
ntp:x:38:38::/etc/ntp:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
nscd:x:28:28:NSCD Daemon:/:/sbin/nologin
mysql:x:1000:1000::/home/mysql:/bin/bash
- 列出UID小于10的数据,并且只列出账号和UID字段:
[root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk '{FS=":"} $3 < 10 {print $1 "\t" $3}'
root:x:0:0:root:/root:/bin/bash
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6
halt 7
mail 8
细心的人会发现第一行数据没有发生变化,这是为什么呢?这是因为,读第一行的时候默认还是以空格分隔的,虽然我们定义了FS=":",但也只能从第二行生效,怎么办呢?我们需要预先设置变量,利用BEGIN这个关键字,这样做:
[root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "\t" $3}'
root 0
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6
halt 7
mail 8
五、总结
awk可以帮我们完成行数据的处理,条件判断,基本运算等。这里带大家简单介绍了一下,大家如果感兴趣可以了解一下awk更高级的用法。