一、基本介绍和说明

作用：接收输入的文本如日志等每行有一致性的内容，可按照规则进行分析、处理、转化得到想要的输出。

普遍用法：

# 分析文件
awk ' rule /pattern/ {action} ' filename
# 分析输入
ls netstat.log | awk ' rule /pattern/ {action} '

相关符号：

$0 当前记录
$n 第n个字段（一般而言，分析的内容每行一个记录，每列一个字段），即第n列
NR 当前行数，不断增加
NF 字段数
FS 分析内容（输入字段）的分隔符
OFS 输出字段分隔符
FILENAME 当前输入文件名
BEGIN 开始前就执行
END 行数遍历完再执行
逻辑运算符：||、&&、!=、==、>、<、>=、<=

注意:

awk语句必须被单引号（必须）包围
单引号内，我的规律总结为：规则、正则直接写，行为操作使用{}包起来

二、示例说明

先创建了一个日志文件test_awk.log，内容如下，分隔符默认是空格，这里为了说明分隔符的使用，使用|作为各个字段的分隔符：

time    user    ip      msg
2020-01-01|ronnie|127.0.0.1|this is msg show
2020-01-12|littsh|119.119.0.1|login for test
2020-02-13|bob|113.12.34.1|I am bob

简单的选取time和ip字段：

# 示例以#作为分隔符，需要声明分隔符为#，用-F参数指定
awk -F "|" '{print $1,$3}' test_awk.log
# 用BEGIN在开始分析前执行指定分隔符，用内置变量FS来指定|为分隔符
awk 'BEGIN {FS="|"} {print $1,$3}' test_awk.log

分析结果为：

time    user    ip      msg
2020-01-01 127.0.0.1
2020-01-12 119.119.0.1
2020-02-13 113.12.34.1

读取了所有行数和满足分隔符条件的第一列和第三列。
此时，如果不需要第一行，可以使用NR内建变量来根据它来输入，命令：

 awk -F "|" 'NR!=1 {print $1,$3}' test_awk.log

意为：NR（类似索引，awk是按行分析）不为1，即不为第一行的内容，才输出，注：条件NR!=1直接写在''内，操作才写在{}内。结果为：

2020-01-01 127.0.0.1
2020-01-12 119.119.0.1
2020-02-13 113.12.34.1

如果输出的结果间距太小，不够美观，可以用printf方法来进行格式化输出，和c很像，命令：

awk -F "|" 'NR!=1 {printf "%-15s %-15s\n",$1,$3}' test_awk.log

注：上面命令，printf后面接的是双引号，里面%s代表字符串，%-15s代表如果没有满足15个字符，那么就右补齐。
输出如下：

2020-01-01      127.0.0.1
2020-01-12      119.119.0.1
2020-02-13      113.12.34.1

如果说不希望展示127.0.0.1的数据，那么，可以输入条件来过滤：

awk -F "|" 'NR!=1 && $3!="127.0.0.1" {printf "%-15s %-15s\n",$1,$3}' test_awk.log

输出：

2020-01-12      119.119.0.1
2020-02-13      113.12.34.1

利用正则表达是选取：
若想要选择含有2020-01的内容，那么，命令如下：

awk -F "|" '/2020-01/ {print $1,$2,$3}' test_awk.log

该命令将正则规则写在''内，选取的是只要含有2020-01的行数，列为字段时间、名字、ip，输出为：

2020-01-01 ronnie 127.0.0.1
2020-01-12 littsh 119.119.0.1

如果我想要选取仅仅ip($3)内含有12的行，就需要指定行，命令如下：

awk -F "|" '$3 ~/12/ {print $1,$2,$3}' test_awk.log

正则前需要加$3 ~，意味第三列的匹配模式为后面的正则，~表示模式开始。

2020-01-01 ronnie 127.0.0.1
2020-02-13 bob 113.12.34.1

统计：
如果我想要得出出ip里面含有12的有多少列，需要用到变量和END，命令如下：

awk -F "|" '$3 ~/12/ {total+=1} END {print "total is",total}' test_awk.log

其中，表达式total+=1必须写在{}内，每次分析一行，都会给total加1，END意思为直到读取完所有行才执行后面的内容，故，输出为：

total is 2

awk脚本：
如果要处理的awk的命令比较复杂的，那么，可以写在一个文件中test_awk.awk，内容如下：

#!/bin/awk -f

# BEGIN后面必须紧接着{}
BEGIN{
        FS="|"
        printf "time           user           ip             count\n"
        printf "--------------------------------------------------\n"
        count = 0
}
{
        # if的写法
        if($3!="127.0.0.1" && NR!=1){
                count += 1
                printf "%-15s %-15s %-15s %-15s\n",$1,$2,$3,count
        }
}
END{
        printf "##################################################\n"
}

该段代码意思为：开始分析前，先修改分隔符为|；之后自定义输出几个字段，每个字段包括后面的空格总共15个字符，且count是自定义的；之后输出--------的行分割线；自己定义变量count=0；之后，按行分析，如果第三个字段ip不是127.0.0.1的且不是第一行的，就输出，且count每次加1；待所有行分析之后，完后再输出#################，最后结果如下：

time           user           ip             count
--------------------------------------------------
2020-01-12      littsh          119.119.0.1     1
2020-02-13      bob             113.12.34.1     2
##################################################

分析性能：
性能这里，需要研究下极端的情况，无穷小或者无穷大时候的情况，就拿日常web的访问日志（不同的内容数量）来说，用普通python脚本读取、正则分析和用awk读取分析，来做一个比较。

文本分析命令：awk

文本分析命令：awk

一、基本介绍和说明

二、示例说明

相关阅读更多精彩内容

友情链接更多精彩内容