简介
awk是一个强大的文本分析、格式化输出工具,相对于grep的查找和sed的编辑,awk在对数据进行分析并生成报告时,显得尤为强大。简单来说,awk就是扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤,一般是以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。如果找不到匹配内容,则继续处理下一行。
AWK拥有自己的语言: AWK 程序设计语言,它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。
常见用法
- awk [options] 'BEGIN{ action;… } pattern{ action;… } END{
action;… }' file ...- awk [options] 'program' var=value file…
awk程序通常由: BEGIN语句块、能够使用模式匹配的通用语句块以及END语句块共3部分组成。
BEGIN初始化代码块:在对每一行进行处理之前,初始化代码,主要是引用全局变量,设置FS分隔符。
pattern 表示 AWK 在数据中查找的内容,可以使用正则表达式,而 action 是在找到匹配内容时所执行的一系列命令。
END结尾代码块:在对每一行进行处理之后再执行的代码块,主要是进行最终计算或输出结尾摘要信息。
{}:命令代码块,包含一条或多条命令。
program通常是需要放到单引号或双引号中。
特殊要点:
变量或字符 | 含义 |
---|---|
$0 | 表示整个当前行 |
$1 | 每行第一个字段 |
FS | 输入字段分隔符,默认为空白字符 |
RS | 输入记录分隔符,指定输入时的换行符,原换行符仍有效 |
NF | 字段数量变量 |
NR | 每行的记录号 |
FNR | 与NR类似,不过多文件记录不递增,每个文件都从1开始 |
FILENAME | 当前文件名 |
ARGC | 命令行参数的个数 |
ARGV | 数组,保存的是命令行所给定的各参数 |
~ | 匹配,与==相比不是精确比较 |
!~ | 不匹配,不精确比较 |
== | 等于,必须全部相等,精确比较 |
!= | 不等于,精确比较 |
&& | 逻辑与 |
|| | 逻辑或 |
print和printf
awk同时提供了print和printf两种打印输出的函数。其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。举例如下:
# 加行号打印
awk '{print NR,$0}' /etc/fstab
# 格式化输出用户名和id
awk -F: '{printf "%-25s%s\n",$1,$3}' /etc/passwd
使用实例
awk中可以使用匹配代码块、条件表达式(== != > >= )、逻辑运算符(&& 和 || )、数值运算、IF语句、while语句、数组等等,功能很丰富,下面通过一些实例来介绍一下。
实例1
fs=":" ; awk -v FS=$fs '{print $1,FS,$3}' /etc/passwd
bash中定义的变量,可以传给awk中定义的变量,awk中使用定义的变量的时候,变量前面不需要加上$。
实例2
awk '{print NR,$0}' /etc/fstab /etc/passwd 显示整体的行号
awk '{print FNR,$0}' /etc/fstab /etc/passwd 显示各自的行号
实例3
筛选磁盘分区(以/dev/sd开头标识)利用率 >= 10%的分区,下面是两种实现方式:
df | awk -F% '$0 ~ "^/dev/sd"{print $1}' | awk '$NF >=10{print $1,$NF}'
这种方式先是用%进行分割,取第一列,然后又利用了模式匹配,需要用到两次awk。再来看第二种实现方式。
df | awk '$0 ~ "^/dev/sd"{if($5 ~ /[1-9][0-9]+%/)print $1,$5}'
该种方式在pattern中用到了正则表达式,里面的action动作中,再一次用到了正则表达式,这样只用到了一次awk。
实例4
分别计算男性和女性的总分和平均成绩。
[root@centos7 workdir]#cat score.txt
mage 100 male
wang 90 male
zhang 80 female
zhao 68 male
li 100 female
sun 84 female
[root@centos7 workdir]#awk '{total[$3]+=$2;num[$3]++}END{for(gender in total)
{print gender,total[gender],total[gender]/num[gender]}}' score.txt
这里用到了数组的知识,total是存放男性和女性总成绩的数组,而num是存放男性和女性各自人数的数组。
实例5
[root@centos7 ~]#cat f1.txt
1 2 3 4 5 6 7 8 9 10
10 11 12 13 14 15 16 17 18 19 20
[root@centos7 ~]#awk '{i=1;sum=0;while(i<=NF){sum+=i;i++};print sum,i}' f1.txt
55 11
66 12
这里需要注意的是i=1,sum=0,只在第一行的时候执行了一次,也就是变量只赋值了一次。
实例6
统计/etc/fstab文件中每个文件系统类型出现的次数
awk '/UUID/{fs[$3]++}END{for (i in fs){print i,fs[i]}}' /etc/fstab
说明:这里只考虑设备标识是UUID的情况,如果是写设备名,改变一下//里的内容也是可以的。
实例7
统计/etc/fstab文件中每个单词出现的次数
awk -F '[^[:alpha:]]+' '{for(i=1;i<=NF;i++)if($i ~ /[[:alpha:]]+/)count[$i]++}
END{for(i in count){print i,count[i]}}' /etc/fstab
实例8
提取字符串Yd$C@M05MB%9&Bdh7dq+YVixp3vpw中的所有数字。
echo "Yd$C@M05MB%9&Bdh7dq+YVixp3vpw" | awk -F '[^[:digit:]]+'
'{for(i=1;i<=NF;i++){if($i ~ /[0-9]+/)print $i}}'