awk日志处理

前言

这两天自己挽起袖子处理日志,终于把AWK给入门了。其实AWK的基本使用,学起来也就半天的时间,之前总是靠同事代劳,惰性呀。

此文仅为菜鸟入门,运维们请勿围观。

本文转载直网络,如有版权问题,请及时与我联系

下面是被处理的日志的示例,不那么标准,但不标准的日志正是标准的情况。

[2015-08-20 10:00:55.600] - [192.168.0.73/192.168.0.75:1080 com.vip.xxx.MyService_2.0 0 106046 100346 90ms 110ms]

基本语句

最基本的语句,以空格做分割,提取所需的列:

awk '{print $0,$1,$2,$(NF-1),$NF,$NF-$(NF-1)}’ access.log

1. 输入

AWK是针对文件或管道中每行输入的处理语言。所以也可以从管道输入:

grep “xxx” access.log | awk '{print $1}’

但下面这样写就会成为一个Linux老梗的主角,awk不需要不需要cat的。

cat access.log | awk '{print $1}'

2.语句定义

可以快速的用单引号’ ’,把所有语句写成一行。

也可以用-f 指定文件,文件里可以任意换行,增加可读性和重用性。

所有执行语句用{}括起来,{}的外面是一些高级的东西比如过滤条件,见后。

3. 列引用

$0代表整行所有数据,$1代表第一列(终于不是程序员数数从0开始了)。

NF是个代表总列数的系统变量,所以$NF代表最后一列,还支持$(NF-1)来表示倒数第二列。

还支持列之间的运算,如$NF-$(NF-1)是最后两列的值相减。

只写一个print 是 print $0的简写,打印整行所有数据。

4. 输入的列分隔符

默认以空格做分割符,也可以重新指定,下例指定了':'

awk -F ':' '{print $1,$2}’ access.log

也可以正则表达式定义多个分割符,下例指定了 '-' 和 ':'

awk -F '[-:]' '{print $1,$2}’ access.log

5. 输出的列间隔

print $1,$2 中间的','逗号,代表打印时第1与第2列之间使用默认分隔符号也就是空格,也可以用” ”来定义其他任意的字符:

awk '{print $1 "\t" $2 " - " $3$4xxxxx$5}’ access.log

上例,在第1第2列之间用 tab 分隔,第2第3列之间用" - "分隔,

也可以什么都不写代表中间没分隔,比如第3第4列之间,或者乱写一些字符没用" "括起来,也等于没写,比如第4第5列之间。

数字类型,字符串类型

虽然上例最后两列的值是字符串类型的,带着ms字样,看起来不能做算术运算。

但其实两个列相减时,AWK就会神奇地把它们转换为纯数字。同样,做累计的时候,sum=sum+$NF,也能自动转换为数字。

如果想对某个字符列比较是否大于阀值,先把它转回数字就行了

sed "s|ms]||g" access.log | awk ' $NF>100 {print}'

其实可以简写成下面的样子,性能还比使用sed略快:

awk ' $NF*1>100 {print}’ access.log

awk ' int($NF)>100 {print}’ access.log

BEGIN与END语句

BEGIN与END后的语句定义在处理全部文本内容之前与之后的语句。

1.计算累计值和平均值

awk '{sum+=$NF} END {print sum, sum/NR}'

上例对每行输入内容进行最后一列的值的累计,而END后的语句,打印累计结果 和平均值,NR是系统变量代表总行数。

2.打印表头

还可以定义BEGIN语句打印表头,定义变量什么的。

awk 'BEGIN{print "Date\t\tTime\t\tCost”} {print $1 "\t"$2 "\t" $NF}’ access.log

上例表头用两个制表符分隔,内容则用一个制表符分隔,有良好的对齐效果。

过滤行

1. 简单字符匹配

先用grep过滤也是可以的,也可以用awk简单在执行语句之外的/ /之间定义正则表达式

awk '/192.168.0.4[1-5]/ {print $1}’ access.log

等价于

grep "192.168.0.4[1-5]” access.log| awk ‘{print $1}

2. 针对某一列的字符匹配

针对第4列的地址段匹配,~ 是字符匹配,!~则是不匹配的意思。

awk '$4 ~ /192.168.0.4[1-5]/ {print}'

3. 针对数值的过滤

支持==, !=, , >, =, >=

awk '$(NF-1)*1==100 {print}'
awk '$NF-$(NF-1)>100 {print}'

见前,对于非纯数字的字段,可以用算术运算让它转回数字。

4. 多条件同时存在

awk '($12 >150 || $(13)>250) {print}'

5. 使用if语句

如果逻辑更复杂,可以考虑使用if,else等语句

awk '{ if ($(NF-1)*1>100) print}'

其他

1.外部传入参数

比如从外面传入超时的阀值,注意threshold在命令行中的位置。

awk '{if($(NF)*1>threshold) print}' threshold=20 access.log

2.常用函数

最有用是gsub和sub,match,index等。其中gsub将一个字符串替换为目标字符串,可选定整行替换或只替换某一列。

awk '{gsub("ms]","",$NF); if( $NF>100 ) print}' access.log

一些例子

1.截取日期段内段数据

方式有很多,都是随着日志格式不同自由发挥。

比如下段截取17:30:30 秒到 17.31:00的数据,先抽取出时分秒三列,再拼成一个数字进行比较

awk -F "[ :.]" '$2$3$4>=173030 $2$3$4173100 {print}'

也可以匹配某个整点时间, 下例取11点的日志:

awk '/[2015-08-20 11:/ {print $1}’ access.log

取11点01分到05分的数据:

awk '/[2015-08-20 11:0[1-5]:/ {print $1}’ access.log

2. 找出超时的数据集中发生的时间

第一段找出超时记录,第二段过滤掉时间戳里的微秒,然后按秒来合并,并统计该秒超时的次数。

awk '$(NF)*1>100 {print}’ access.log | awk -F"." '{print $1}' | sort | uniq -c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容

  • 转载 原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
    XKirk阅读 3,218评论 2 25
  • awk介绍awk变量printf命令:实现格式化输出操作符awk patternawk actionawk数组aw...
    哈喽别样阅读 1,564评论 0 4
  • awk:报告生成器,格式化文本输出 内容: awk介绍 awk基本用法 awk变量 awk格式化 awk操作符 a...
    BossHuang阅读 1,457评论 0 9
  • 一.基本介绍 1.awk: awk是一个强大的文本分析工具,在对文本文件的处理以及生成报表,awk是无可替代的。a...
    大福技术阅读 1,666评论 1 4
  • 我们先来看一个简单的闭包函数: 假如不使用如上的闭包函数,当调用外部函数a之后,其定义的私有变量就不存在,也就无法...
    富有的心阅读 246评论 0 0