linux awk命令介绍以及应用

简介

awk是一个强大的文本分析、格式化输出工具，相对于grep的查找和sed的编辑，awk在对数据进行分析并生成报告时，显得尤为强大。简单来说，awk就是扫描文件中的每一行，查找与命令行中所给定内容相匹配的模式。如果发现匹配内容，则进行下一个编程步骤，一般是以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。如果找不到匹配内容，则继续处理下一行。
AWK拥有自己的语言： AWK 程序设计语言，它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

常见用法

awk [options] 'BEGIN{ action;… } pattern{ action;… } END{
action;… }' file ...

awk [options] 'program' var=value file…

awk程序通常由： BEGIN语句块、能够使用模式匹配的通用语句块以及END语句块共3部分组成。
BEGIN初始化代码块：在对每一行进行处理之前，初始化代码，主要是引用全局变量，设置FS分隔符。
pattern 表示 AWK 在数据中查找的内容，可以使用正则表达式，而 action 是在找到匹配内容时所执行的一系列命令。
END结尾代码块：在对每一行进行处理之后再执行的代码块，主要是进行最终计算或输出结尾摘要信息。
{}：命令代码块，包含一条或多条命令。
program通常是需要放到单引号或双引号中。

特殊要点:

变量或字符	含义
$0	表示整个当前行
$1	每行第一个字段
FS	输入字段分隔符，默认为空白字符
RS	输入记录分隔符，指定输入时的换行符，原换行符仍有效
NF	字段数量变量
NR	每行的记录号
FNR	与NR类似，不过多文件记录不递增，每个文件都从1开始
FILENAME	当前文件名
ARGC	命令行参数的个数
ARGV	数组，保存的是命令行所给定的各参数
~	匹配，与==相比不是精确比较
!~	不匹配，不精确比较
==	等于，必须全部相等，精确比较
!=	不等于，精确比较
&&	逻辑与
\|\|	逻辑或

print和printf

awk同时提供了print和printf两种打印输出的函数。其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用，参数用逗号分隔。如果没有逗号，参数就串联在一起而无法区分。printf函数，其用法和c语言中printf基本相似，可以格式化字符串，输出复杂时，printf更加好用，代码更易懂。举例如下：

# 加行号打印
awk '{print NR,$0}' /etc/fstab     
# 格式化输出用户名和id
awk -F: '{printf "%-25s%s\n",$1,$3}' /etc/passwd

使用实例

awk中可以使用匹配代码块、条件表达式（== != > >= ）、逻辑运算符（&& 和 || ）、数值运算、IF语句、while语句、数组等等，功能很丰富，下面通过一些实例来介绍一下。

实例1

  fs=":" ; awk -v FS=$fs '{print $1,FS,$3}'  /etc/passwd

bash中定义的变量，可以传给awk中定义的变量，awk中使用定义的变量的时候，变量前面不需要加上$。

实例2

   awk '{print NR,$0}' /etc/fstab /etc/passwd     显示整体的行号
   awk '{print FNR,$0}' /etc/fstab /etc/passwd   显示各自的行号

实例3

筛选磁盘分区（以/dev/sd开头标识）利用率 >= 10%的分区，下面是两种实现方式：

  df | awk -F% '$0 ~ "^/dev/sd"{print $1}' | awk '$NF >=10{print $1,$NF}'

这种方式先是用%进行分割，取第一列，然后又利用了模式匹配，需要用到两次awk。再来看第二种实现方式。

  df | awk '$0 ~ "^/dev/sd"{if($5 ~ /[1-9][0-9]+%/)print $1,$5}'

该种方式在pattern中用到了正则表达式，里面的action动作中，再一次用到了正则表达式，这样只用到了一次awk。

实例4

分别计算男性和女性的总分和平均成绩。

[root@centos7 workdir]#cat score.txt
mage  100 male
wang   90 male
zhang 80 female
zhao 68 male
li    100 female
sun  84  female

[root@centos7 workdir]#awk '{total[$3]+=$2;num[$3]++}END{for(gender in total)
{print gender,total[gender],total[gender]/num[gender]}}' score.txt

这里用到了数组的知识，total是存放男性和女性总成绩的数组，而num是存放男性和女性各自人数的数组。

实例5

[root@centos7 ~]#cat f1.txt
1 2 3 4 5 6 7 8 9 10
10 11 12 13 14 15 16 17 18 19 20
[root@centos7 ~]#awk '{i=1;sum=0;while(i<=NF){sum+=i;i++};print sum,i}' f1.txt         
55 11
66 12

这里需要注意的是i=1，sum=0，只在第一行的时候执行了一次，也就是变量只赋值了一次。

实例6

统计/etc/fstab文件中每个文件系统类型出现的次数

  awk '/UUID/{fs[$3]++}END{for (i in fs){print i,fs[i]}}' /etc/fstab

说明：这里只考虑设备标识是UUID的情况，如果是写设备名，改变一下//里的内容也是可以的。

实例7

统计/etc/fstab文件中每个单词出现的次数

awk -F '[^[:alpha:]]+' '{for(i=1;i<=NF;i++)if($i ~ /[[:alpha:]]+/)count[$i]++}
END{for(i in count){print i,count[i]}}'  /etc/fstab

实例8

提取字符串Yd$C@M05MB%9&Bdh7dq+YVixp3vpw中的所有数字。

echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw" | awk -F '[^[:digit:]]+'
 '{for(i=1;i<=NF;i++){if($i ~ /[0-9]+/)print $i}}'

linux awk命令介绍以及应用