写在前面

本篇是个人学习整理笔记而得。
原书：Sed and Awk 101 Hacks -中文版
引用书结尾的一句话:
Knowledge is not one man’s Entity

awk 基本使用

1. 程序结构

### begin 区域的语法:
BEGIN { awk-commands }
### BEGIN 区域的命令只在最开始执行一次，可选

### body 区域的语法：
/pattern/{action}
### 每从输入文件中读取一行，就会执行一次body区域的命令

### end 区域的语法：
END { awk-commands }
### END  区域在 awk  执行完所有操作后执行，并且只执行一次，可选

### 一个例子
]# awk 'BEGIN {FS=":";print"-----header-----"} \
> /mail/{print $1} \
> END {print "-----footer-----"}' /etc/passwd
-----header-----
mail
-----footer-----
]#

2. 执行多个文件

### 例子
]# awk 'BEGIN {FS=":";print "-----header-----"}
/mail/{print $1}
END {print "------footer-----"}' /etc/passwd /etc/group
-----header-----
mail
mail
------footer-----
]# 
### 注意，即是指定了多个文件，BEGIN 和 END 区域，仍然只会执行一次

3. 打印命令 print

### 不带参数，打印整行数据
]# awk '{print}' employee.txt
101,John Doe,CEO
102,Jason Smith,IT Manager
103,Raj Reddy,Sysadmin
104,Anand Ram,Developer
105,Jane Miller,Sales Manager
]# 

### 按逗号分隔打印第二个字段
]# awk -F ',' '{print $2}' employee.txt
John Doe
Jason Smith
Raj Reddy
Anand Ram
Jane Miller
]#

4. 模式匹配

### 和sed一样，awk也可以只对匹配到的行进行操作
# 只打印管理者行
]# awk -F ',' '/Manager/{print $2": "$3}' employee.txt
Jason Smith: IT Manager
Jane Miller: Sales Manager
]#

awk 内置变量

1. FS - 输入字段分隔符

### 默认分隔符是一个或多个空格字符
### -F 选项的作用和FS变量一样的
### FS 变量只能在BEGIN区域定义
### FS 变量支持正则
]# cat employee.txt
101,John Doe:CEO%10000
102,Jason Smith:IT Manager%5000
103,Raj Reddy:Sysadmin%4500
104,Anand Ram:Developer%4500
105,Jane Miller:Sales Manager%3000

]# awk 'BEGIN {FS="[,:%]"}{print $2": "$3}' employee.txt
John Doe: CEO
Jason Smith: IT Manager
Raj Reddy: Sysadmin
Anand Ram: Developer
Jane Miller: Sales Manager
]#

2. OFS - 输出字段分隔符

### 默认情况下，awk输出字段之间是以空格分开
]# awk -F ',' '{print $2,$3}' employee.txt
John Doe CEO
Jason Smith IT Manager
Raj Reddy Sysadmin
Anand Ram Developer
Jane Miller Sales Manager
]#

### 使用OFS变量指定输出分隔符
]# awk -F ',' 'BEGIN {OFS=": "} {print $2,$3}' employee.txt
John Doe: CEO
Jason Smith: IT Manager
Raj Reddy: Sysadmin
Anand Ram: Developer
Jane Miller: Sales Manager
]# 

### 输出变量间没有逗号，不使用OFS，输出打印间没有字符
]# awk -F ',' 'BEGIN {OFS=": "} {print $2$3}' employee.txt
John DoeCEO
Jason SmithIT Manager
Raj ReddySysadmin
Anand RamDeveloper
Jane MillerSales Manager
]#

3. RS - 记录分隔符

### 默认情况下记录分隔符是换行符
### 一条记录也就是默认情况下的一行
# 要打印雇员的姓名
]# cat emp_one_line.txt 
101,John Doe;102,Jason Smith;103,Raj Reddy;104,Anand Ram;105,Jane, Miller
]# awk -F ',' '{print $2}' emp_one_line.txt 
John Doe;102
]# 
# 需要指定记录分隔符为分号
]# awk -F ',' 'BEGIN {RS=";"} {print $2}' emp_one_line.txt 
John Doe
Jason Smith
Raj Reddy
Anand Ram
Jane
]#

4. ORS - 输出记录分隔符

### 可以看出默认的输出记录分隔符是换行符
# 使用ORS指定输出每行换隔
]# awk 'BEGIN {FS=",";OFS=": ";ORS="\n-----\n"} {print $2,$3}' employee.txt
John Doe: CEO
-----
Jason Smith: IT Manager
-----
Raj Reddy: Sysadmin
-----
Anand Ram: Developer
-----
Jane Miller: Sales Manager
-----
]#

5. NR - 记录序号

### NR是记录每一行的行号
### 在END块中NR值是最后一行的行号，也就是总行数
]# awk 'BEGIN {FS=","}
{print "Emp Id of record number",NR,"is",$1}
END {print "Total number of records:",NR}' employee.txt
Emp Id of record number 1 is 101
Emp Id of record number 2 is 102
Emp Id of record number 3 is 103
Emp Id of record number 4 is 104
Emp Id of record number 5 is 105
Total number of records: 5
]# 

### 在BEGIN块中NR的值是0
]# awk 'BEGIN {FS=",";print NR}' empname.txt 
0
]#

6. FILENAME - 当前处理得文件名

### awk在处理多个文件时，FILENAME变量可以显示当前处理得文件名
]# awk '{print FILENAME}' employee.txt emp_one_line.txt 
employee.txt
employee.txt
employee.txt
employee.txt
employee.txt
emp_one_line.txt
]# 

### 没有输入文件时，FILENAME的值是-
]# echo "Johe Doe" | awk '{print "Last name:",$2;print "Filename:"FILENAME}'
Last name: Doe
Filename:-
]#

7. FNR - 文件中的NR

### 在处理多个文件时，NR会在多个文件之间持续叠加
### FNR会在不同文件，分别叠加行数
]# awk 'BEGIN{OFS=": "} {print FILENAME,FNR}' employee.txt emp_one_line.txt 
employee.txt: 1
employee.txt: 2
employee.txt: 3
employee.txt: 4
employee.txt: 5
emp_one_line.txt: 1
]#

awk

awk 语法和基础命令

awk 程序结构

BEGIN 区域
- BEGIN { awk-commands }
- 最开始阶段执行仅一次
- 可以一个或多个命令
- 关键字 BEGIN 必须大写
- 可选
body 区域
- /pattern/{action}
- 每次读取一行时都执行
- 没有关键字
END 区域
- END{ awk-commands }
- 最后阶段执行仅一次
- 可以一个或多个命令
- 关键字 END 必须大写
- 可选

# 例子一枚
]# awk 'BEGIN{ FS=":";print("-----header-----")} \
/mail/{print $1} \
END { print "-----footer-----"} ' /etc/passwd

-----header-----
mail
-----footer-----

# 支持输入多文件, 支持多字符分割
awk -F '[:/]' '/mail/{print $1}' /etc/passwd /etc/group

print 命令

# 不带参数，打印整行数据
awk '{print}' <filename>
# 等价于
awk '{print $0}' <filename>

# $<n>, 打印指定字段
awk '{print $2}' <filename>

# $<n>, 打印指定字段
awk '{print $2}' <filename>

# 模式匹配
awk '/pattern/{print $2}' <filename>

awk 内置变量

FS - 输入字段分隔符

默认一个或多个空格为输入分隔符

awk 'BEGIN{ FS=":" }/mail/{print $1}' <filename>
# 等价于
awk -F ':' '/mail/{print $1}' <filename>

# 正则匹配多个分隔符
awk 'BEGIN{ FS="[:/]" }/mail/{print $1}' <filename>

OFS - 输出字段分隔符

默认空格为输出字段输出分隔符

awk 'BEGIN{ FS=":";OFS="||"; }/mail/{print $1,$2}' <filename>

RS - 记录分隔符

默认换行符为记录分隔符

# 处理所有数据在单行
# 假使数据之间以':'隔开的
awk 'BEGIN{ RS=":" }{print $2}' <filename>

ORS - 输出记录分隔符

默认换行符为输出记录分隔符

# 以 ';' 为ORS
awk 'BEGIN{ ORS=";" }{print $$2}' <filename>

NR - 记录序号

处理时的记录序号，重复处理会叠加

awk -F ':' '{print NR,"is",$1}' <filename>

FNR - 文件中的序号

文件中的记录序号，重复处理不会叠加

awk -F ':' '{print FNR,"is",$1}' <filename>

FILENAME - 当前文件名

awk -F ':' '{print FILENAME,$1}' <filename01> <filename02>

awk 变量操作符

变量

$ vi total-company-salary.awk
BEGIN {
    FS=",";
    total=0;
}
{
    print $2 "'s slary is: " $4;
    total=total+$4
}
END {
    print "---\nTotal company salary =$"total;
}

一元操作符

取正 +
取反 -
自增 ++
自减 --

算术操作符

加 +
减 -
乘 *
除 /
取余 %

字符串操作符

空格: 字符串连接符

str03=str01 str02

赋值操作符

赋值 =
加法赋值 +=
减法赋值 -=
乘法赋值 *=
除法赋值 /=
取模赋值 %=

比较操作符

大于/大于等于 > >=
小于/小于等于 < <=
等于/不等于 == !=
且/或 && ||

正则操作符

匹配 ~
匹配 !~

awk 分支和循环

if else

if(conditional-expression)
{
    action01;
}
else
{
    action02;
}

三元操作符

BEGIN{
    FS=":";
}
{
    aa=$3==27?$1:$3
    print aa
}

while 循环

do while 类似

BEGIN{
    FS=":";
}
{
    i=0
    while(i<3)
    {
        print $1
        i++
    }
}

for 循环

]# echo -e '1 3 5 7\n2 4 6 8' | awk '{for(i=1;i<=NF;i++){total=total+$i;}print total;}'
16
36
]# echo -e '1 3 5 7\n2 4 6 8' | awk '{for(i=1;i<=NF;i++)total=total+$i;}END{print total}'
36
]#

其他

break
continue
exit

awk 关联数组

引用数组元素

BEGIN{
  x=item[55];
  item[101]="test_101"
  if ( 55 in item )
  {
    print "if_01>>>"item[55]
  }
  if ( 101 in item )
  {
    print "if_02>>>"item[101]
  }
  if ( 1000 in item )
  {
    print "if_03>>>"item[1000]
  }
}

循环遍历数组

for ( var in arrayname )
    actions

删除数组元素

delete arrayname[index];

其他 awk 命令

printf 格式化输出

printf "%s, %s\n", $2,$ 3
printf "%s, %s\n", $2,$ 3

格式化字符	描述
s	字符串
c	单个字符
d	数值
e	指数
f	浮点数
g	根据值决定使用 e 或 f 中较短的输出
o	八进制
x	十六进制
%	百分号

awk 内置数值函数

int(n) 取整数
log(n) 取对数
sqrt(n) 取正平方根
exp(n) 取 e 的 n 次幂
sin(n) 取 n 的正弦值
cos(n) 取 n 的余弦值

随机数生成器

rand() 产生 0-1 之间的随机数

# 产生10个 0-100 之间的随机正整数
awk 'BEGIN{ while(i<10){print int(rand()*100);i++; } }'

srand(n) 产生 n 开始的随机数

常见字符串函数

index(str, substr)

substr 在 str 的第几个位置(1开始)，如果不存在，返回 0
length(str) str字符串的长度
split(input_str, output_array, separator)
substr(input_str, index, length)

从 input_str 的 index 位置开始取 length 长的字符串

双向管道

awk 可以使用 |& 和外部进程通信，这个过程是双向的。

BEGIN {
command = "sed 's/Awk/Sed and Awk/'"
print "Awk is Great!" |& command
close(command,"to");
command |& getline tmp
print tmp;
close(command);
}

系统函数

system(command)

]# awk 'BEGIN{ system("date") }'
Tue Dec 24 20:11:42 CST 2019

getline 命令

执行完 getline 命令，会直接读取下一行数据。
会重置 NF NR FNR $0 等内置变量

# 打印偶数行(注: 最后一行也会被打印)
awk '{ getline;print $0; }' items.txt
# 保存在 temp
awk '{ getline temp;print temp; }' items.txt

awk '{ getline temp;print "奇数",$0;print "偶数",temp; }' items.txt

# 从其他文件 getline
# 两个文件内容交替打印
awk '{ print $0;getline < "digit.txt";print $0;}' items.txt
# 等价于保存到变量打印
awk '{ print $0;getline tmp < "digit.txt";print tmp;}' items.txt

awk 总结

写在前面

awk 基本使用

1. 程序结构

2. 执行多个文件

3. 打印命令 print

4. 模式匹配

awk 内置变量

1. FS - 输入字段分隔符

2. OFS - 输出字段分隔符

3. RS - 记录分隔符

4. ORS - 输出记录分隔符

5. NR - 记录序号

6. FILENAME - 当前处理得文件名

7. FNR - 文件中的NR

awk

awk 语法和基础命令

awk 程序结构

print 命令

awk 内置变量

FS - 输入字段分隔符

OFS - 输出字段分隔符

RS - 记录分隔符

ORS - 输出记录分隔符

NR - 记录序号

FNR - 文件中的序号

FILENAME - 当前文件名

awk 变量操作符

变量

一元操作符

算术操作符

字符串操作符

赋值操作符

比较操作符

正则操作符

awk 分支和循环

if else

三元操作符

while 循环

for 循环

其他

awk 关联数组

引用数组元素

循环遍历数组

删除数组元素

其他 awk 命令

printf 格式化输出

awk 内置数值函数

随机数生成器

常见字符串函数

双向管道

系统函数

getline 命令

相关阅读更多精彩内容

友情链接更多精彩内容