Linux命令学习-awk


awk

文本处理,每次读取一行,并进行分片(默认用空格分割),然后依次放入变量 $1, $2, $3, ..., $NF 中,其中 $0 用于表示所有分割元素,action 可以对数据进行处理。

# program
[pattern] { action }
# 这里的 pattern 可以省略,也可以是正则,也可以是以下将要讲到的 BEGIN, END 等。
# action 也可以被省略,默认打印所有元素,但是不能都省略 pattern 和 action
$ awk '/regexr/' input_file      # 省略了 action,其等价于 awk '/regexr/{print $0}' input_file
$ awk '{print $1}' input_file    # 省略了pattern
# mail_list 用于 awk 分析使用
Amelia       555-5553     amelia.zodiacusque@gmail.com    F
Anthony      555-3412     anthony.asserturo@hotmail.com   A
Becky        555-7685     becky.algebrarum@gmail.com      A
Bill         555-1675     bill.drowning@hotmail.com       A
Broderick    555-0542     broderick.aliquotiens@yahoo.com R
Camilla      555-2912     camilla.infusarum@skynet.be     R
Fabius       555-1234     fabius.undevicesimus@ucb.edu    F
Julie        555-6699     julie.perscrutabor@skeeve.com   F
Martin       555-6480     martin.codicibus@hotmail.com    A
Samuel       555-3430     samuel.lanceolis@shu.edu        A
Jean-Paul    555-2127     jeanpaul.campanorum@nyu.edu     R

# inventory-shipped
Jan  13  25  15 115
Feb  15  32  24 226
Mar  15  24  34 228
Apr  31  52  63 420
May  16  34  29 208
Jun  31  42  75 492
Jul  24  34  67 436
Aug  15  34  47 316
Sep  13  55  37 277
Oct  29  54  68 525
Nov  20  87  82 577
Dec  17  35  61 401

Jan  21  36  64 620
Feb  26  58  80 652
Mar  24  75  70 495
Apr  21  70  74 514

执行方式

awk [options] -f progfile [--] file …
awk [options] [--] 'program' file …

# -- 表示参数 options 的结束

# eg
$ awk '{print $1}' mail_list 
Amelia
Anthony
Becky
...

# 将处理代码写入 program_file 中,用 -f 方式加载
awk -f program_file input_file1 input_file2 ...
还可以写成脚本方式
#!/bin/awk -f

BEGIN { action }    # 文本开始时执行一次

pattern { action }     # 文本处理主要在这里

END { action }     # 结束时执行一次
先来进行一些简单的应用
$ awk '/li/ { print $0 }' mail-list
-| Amelia       555-5553     amelia.zodiacusque@gmail.com    F
-| Broderick    555-0542     broderick.aliquotiens@yahoo.com R
-| Julie        555-6699     julie.perscrutabor@skeeve.com   F
-| Samuel       555-3430     samuel.lanceolis@shu.edu        A

$ awk 'NF > 0' mail_list    
# NF 可以理解为分割元素数量

$ awk 'BEGIN { for (i = 1; i <= 7; i++) print int(101 * rand()) }'   
# 随机 0-100 的 7 个数

$ ls -l | awk '{ x += $5 } END{ print "total bytes:" x }'   
 # 统计当前目录文件总大小

$ awk -F: '{ print $1 }' /etc/passwd | sort    
# -F 指定分割符

$ awk 'END { print NR }' mail_list    
# NR 行数,每读入一行都会递增的,结束时就是整个文本的函数了

$ awk 'NR % 2 == 0' mail_list   
# 打印所有偶数行

包含其它文件 @


## test1 ##
BEGIN {print test1 }

## ##
@include "test2"
BEGIN {print "test2"}

正则表达比较 ~ 和 !~


exp ~ /regexp/ # 表示 exp 和 regexp 匹配的话返回真
exp !~ /regxep/ # 表示 exp 和 regexp 不匹配时返回假

$ awk '$1 ~ /J/' inventory-shipped
-| Jan  13  25  15 115
-| Jun  31  42  75 492
-| Jul  24  34  67 436
-| Jan  21  36  64 620

$ awk '$1 !~ /J/' inventory-shipped
-| Feb  15  32  24 226
-| Mar  15  24  34 228
-| Apr  31  52  63 420
-| May  16  34  29 208
…
 
以上俩等价于
awk '{ if ($1 ~ /J/) print $0 }' inventory-shipped
awk '{ if ($1 !~ /J/) print $0 }' inventory-shipped

忽略大小写


x = "aB"
if (x ~ /ab/) …   # this test will fail

IGNORECASE = 1
if (x ~ /ab/) …   # now it will succeed

Record Splitting


RS 默认是换行,通过设置该值可以改变行输入的结尾

$ awk 'BEGIN { RS = "u" }  { print $0 }' mail-list
-| Amelia       555-5553     amelia.zodiac
-| sq
-| e@gmail.com    F
-| Anthony      555-3412     anthony.assert
-| ro@hotmail.com   A
-| Becky        555-7685     becky.algebrar
-| m@gmail.com      A
-| Bill         555-1675     bill.drowning@hotmail.com       A
-| Broderick    555-0542     broderick.aliq
...

# RS 可以设置为正则表达
# RT 为 RS 每次匹配到的内容
$ echo record 1 AAAA record 2 BBBB record 3 |
> gawk 'BEGIN { RS = "\n|( *[[:upper:]]+ *)" }
>             { print "Record =", $0,"and RT = [" RT "]" }'
-| Record = record 1 and RT = [ AAAA ]
-| Record = record 2 and RT = [ BBBB ]
-| Record = record 3 and RT = [
-| ]

# 类似的还有 FS, 域分割符,默认是空格,也可以使用正则
$ echo "John Q. Smith, 29 Oak St., Walamazoo, MI 42139" | awk 'BEGIN {FS=","};{print $2}'
-|  29 Oak St.

使用外部命令,这里使用 date 作为示范,现在有一个文件的格式如下:

time.txt
1,2017-10-18 03:44:59,2017-10-18 03:46:05
2,2017-10-18 03:48:28,2017-10-18 03:48:47
3,2017-10-18 03:49:23,2017-10-18 03:56:24
4,2017-10-18 03:55:16,2017-10-18 03:56:56
5,2017-10-18 03:58:08,2017-10-18 03:59:16
6,2017-10-18 03:58:32,2017-10-18 03:59:00
7,2017-10-18 03:59:55,2017-10-18 04:01:13

现在计算两个时间的差,可以写成以下的格式:

gawk -F ',' '{
cmd_f="date +%s -d \""$2"\""; 
cmd_t="date +%s -d \""$3"\""; 
cmd_f|getline a; cmd_t|getline b; 
print b - a;
}' ./temp_time

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • awk:报告生成器,格式化文本输出 内容: awk介绍 awk基本用法 awk变量 awk格式化 awk操作符 a...
    BossHuang阅读 1,476评论 0 9
  • awk介绍awk变量printf命令:实现格式化输出操作符awk patternawk actionawk数组aw...
    哈喽别样阅读 1,611评论 0 4
  • 本章主要学习内容awk介绍 awk基本用法 awk变量 awk格式化 awk操作符 awk条件判断 a...
    楠人帮阅读 1,307评论 0 8
  • 转载 原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
    XKirk阅读 3,294评论 2 25
  • awk命令的基本使用 [root@shellscript ~]# head -n 3 /etc/passwd | ...
    古寒飞阅读 1,080评论 0 2