awk对于我来说强大的功能在于:当处理超过5万行的EXCEL数据,Windows频繁卡死的情况下,在基于linux上的awk处理只需要两秒。它可以跨越一些EXCEL的短板,鉴于事物总是对立与统一的,它的应用或许需要更强的逻辑思维能力。
awk BEGIN {pattern} 'pattern {action}' END {pattern} filenames
#我们经常使用中间的部分:
awk 'pattern {action}' filenames #pattern指满足的条件,action指进行的动作。
#for example
awk '$2+$3+$4+$5+$6+$7!=0 {print $0}' differ_gene_read.txt
我们可以看到:
differ_gene_read.txt文件是一个以换行符(\t)分割的、共有7列、有23668行的文本文件,它的第一列为基因的名称,最后六列是每个样本的基因的read数。
这个代码的意思是:
将后6行中不等于0的行提取出来。$0表示打印所有的行。