Linux处理文本的第三驾马车—awk命令
AWK是一种优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一https://zh.wikipedia.org/wiki/AWK。awk也称gawk,编程语言,可对文本和数据进行处理。awk比grep或sed难度大一些,在这儿主要学习它常用的命令行处理文本方法,除了能处理文本,它比sed和grep多一个功能,即可以处理数据(如加减乘除)。
常见参数
-F,fields,设置字段(一列)分隔符;(联想到cut -d)
-v,var=value定义awk程序中的一个变量及其默认值(变量在代码里可以用,在外面定义在里面用)
常见用法
awk
[options]
'{script}'
file
中间有一个代码部分{script},作用和sed命令很像
代码部分'{script}'
的结构:
基础结构:
'{script}'
匹配结构:
' /pattern/{script}'
(两个//之间做匹配,匹配上的行就做代码里面的处理,匹配不上就不做处理)
- 扩展结构:
BEGIN {script} {script} END {script}
(分三段:第一段BEGIN {script}做代码里的定义,第二段{script}做第二件事情,第三段END {script}做最后的处理)
awk在读取一行文本时,会用预定义的字段分隔符划分每个数据字段(分成很多列),并分配给一个变量。
-
$0
:代表整个文本行(所有列); -
$1
:代表文本行中的第1个数据字段(第1列); -
……
:$2... -
$NF
:代表文本行中的最后一个数据字段(代表每一行的最后一列)
awk默认的字段分隔符是任意空白字符(如:空格
or制表符
),awk识别到空格or 制表符都切割,二选一可以用-F
参数自定义分隔符,-F ' ' 或是-F '\t '。
awk基础结构
cut命令与awk命令分别切割example.gtf文件的第9列对比:
用cut命令切割第9列对比:
less -S Data/example.gtf | cut -f 9 |less -S
##cut默认的分隔符是\t,所以空格不会切掉
awk命令切割第9列:
less -S Data/example.gtf | awk '{print $9}' |less -S
##与cut命令切割的结果不一样, awk识别空格为分隔符。awk命令处理的特点,默认有多个分割符。
example.gtf里第9列的内容:attributes:
属性,必须要有以下两个值:gene_id value: 表示坐标在基因组上的基因座的唯一的ID gene_id 与 value 值用空格分开,如果值为空,则表示没 有对应的基因。
transcript_id value: 预测的转录本的唯一ID。 transcript_id与value值用空格分开,空表示没有转录本。
指定分割第9列和第10列
less -S Data/example.gtf | awk '{print $9,$10}' |less -S
要想把第9列完完整打印出来,需要指定制表符\t为分割符
less -S Data/example.gtf | awk -F '\t' '{print $9}' |less -S
###awk命令指定制表符\t为分割符,空格不再是分割符,没有被切掉,所有的内容都是第9列
awk匹配结构:两个斜杠//
less -S Data/example.gtf | awk -F '\t' '/UTR/{print $0}' |less -S
##首先搜索UTR,再对所在的行进行处理后打印出来,$0表示一整行
##$0表示一整行,包含多个字段(多列),如果要对第1列,第4列,第5列进行操作。
less -S Data/example.gtf | awk -F '\t' '/UTR/{print $1,$4,$5}' |less -S
##awk匹配/UTR/与grep UTR有类似的匹配功能,不过awk的后面命令可以做各种各样的操作。
awk扩展结构:三段式
less -S Data/example.gtf | awk 'BEGIIN{print "find UTR feature"} /UTR/{print $0} END{ print "end"}'| less -S
##第一段:BEGIIN{print "find UTR feature"},热身部分的代码,不对文件的行起作用,也就是说awk命令在处理第一行之前先执行BEGIN里的代码,先热身。
##第二段:UTR/{print $0}对每一行起作用:先搜索UTR,如果有就打印$0这一行出来,如果没有UTR就什么都不做,处理第一行到最后一行都是这句代码。
##第三段:END{ print "end"}在上一步执行完所有的行之后再打印end这个单词
##BEGIN和END可以用正则表达式,但是用得比较少
awk先对一行处理,再分隔成多列,再对列进行处理,在处理过程中就看不到内在的变化
awk内置变量
awk在处理时,有些变量是看不见的,内置变量:
FS
:定义输入字段分隔符,FieldSeparator,同–F
FS是一个变量,-F是一个参数,所处的位置不一样。RS
:定义输入记录分隔符,Record Separator
怎么识别一行一行,awk识别一个换行符,一条记录就是一行,每行最后有一个换行符,可以定义句号为分 割符,然后进行一些操作,把首字母变成大写。OFS
:定义输出字段分隔符,Out FieldSeparator
输入是\t为分隔符,可以以空格符作为输出,输出列与列之间是空格符。ORS
:定义输出记录分隔符,Out Record Separator
比如每一句以换行符输出。NF
:数据文件中的字段总数,可以简单理解为列数
记录多少列,处理第几列时,NF为第几列,处理文件时一直变。NR
:已处理的输入记录数,可以简单理解为行数
记录多少行,处理第几行时,NR为第几行。也可以通过
-v
参数自定义变量或传递外部变量
内置变量用得比较少,因为大多数生信文件是比较规整的,但不排除会遇到奇奇怪怪的文件。
awk内置变量常见用法
通过定义分隔,空格不让切
##首先把第9列的东西打印出来
less -S Data/example.gtf | awk '{print $9}' |less -S
##FS="\t"定义分隔符,定义列的分隔符。
less -S Data/example.gtf | awk 'BEGIN{FS="\t"} {print $9}' |less -S
##FS="\t"定义制表符\t为列与列之间的分隔符,把所有的东西都打印出来,空格不再是一个分隔符,
##加NR,理解为行数
less -S Data/example.gtf | awk 'BEGIN{FS="\t"} {print NR $9}' |less -S
##NR,记录分隔符,就是记录行,比如处理第一行是,NR为1,,处理第3行,NR就为3.如行前面的数字。
以后需要用到内置变量时,通过几个例子去探索它的具体用法
awk条件和循环语句
awk本身是一门编程语言,编程语言本来就有循环语句
if:条件判断
awk ' { if (判断条件) {yes} else {no} } '
与R语言里的判断语句是一模一样的
for:循环语句
awk ' { for (循环条件) {循环语句} } '
经常出现的问题:
1.引号,括号,花括号不成对;
2.在外面只能用单引号,在里面用双引号,不能乱用引号。
-
注意细节:
一般把引号,括号,大括号成对输入(写),避免漏掉一个。
if语句的简单用法
less -S Data/example.gtf | awk '{if($3=="gene") print $0}' |less -S
##如果$3=="gene"就打印$0,如果$3不等于gene,就什么都不用做。
##==表示判断
awk结合else的使用
如果条件成立就做一件事情,如果条件不成立(else),就做另一件事情。
less -S Data/example.gtf | awk '{if($3=="gene") {print $0} else{print $3 " is not gene "}}' | less -S
##打印$3,$3后面接了字符串
less -S Data/example.gtf | awk '{if($3=="gene") {print $1,$2,$3}}' | less -S
##奇怪的现象:输出发现第一列和第二列之间不是制表符,是空格符。awk处理有时候输入为制表符,输出就以空格为分割符。在'{if($3=="gene") 加入BEGIN=OFS,定义输出分隔符为制表符就不会出现以上的情况。
awk里面的for循环
可能和R语言里的for循环不一样
less -S Data/example.gtf | awk '{for(i=1;i<4;i++){print $i}}' | less -S
##i=i;i<4;i++,有C语言基础就比较容易理解,
##i=1,小于4,执行第一行第一列,i++就是等于2,可以执行第二行、第二列,i+1=3(i=ii+1.
##i=4,不再小于4,就不再执行。
#第1行,执行1,2,3列
#第2行,执行1,2,3列
##累加到条件不成立就退出
##输出的结果是$1,$2,$3,一列占了一行。
##传递给命令paste - - -,每三行合并成每三列
less -S Data/example.gtf | awk '{for(i=1;i<4;i++){print $i}}' | less -S | paste - - -
awk的数学运算
+(加),- (减), * (乘),/ (除)
^ (幂) ,** (平方), % (取余)
int(x) x的整数部分,取靠近零一侧的值
log(x) x的自然对数
先了解,不要求立马掌握,后面多练习
减法运算示例
#用第5列减去第4列,其实就是求外显子的长度
less -S Data/example.gtf | awk '/exon/ {print $5-$4}' | less -S
##首先要匹配到外显子exon,再求外显子的长度
除法运算示例
less -S Data/example.gtf | awk '/exon/ {print $5/$4}' | less -S
##$5/$4没有实际意义,为了演示。除法默认保留5位小数,如果要做其它运算,用/把$5-$4里的-替代掉,
运算取整
##用int()取整数
less -S Data/example.gtf | awk '/exon/ {print int($5/$4)}' | less -S
##上面的一行代码中$5/$4没有任何意义,只是为了演示,拿来用。
#可以不用匹配外显子
less -S Data/example.gtf | awk '{print int($5/$4)}' | less -S
四舍五入
less -S Data/example.gtf | awk '{print $5/$4}' | less -S
###先运行原来的
less -S Data/example.gtf | awk '{print int($5/$4+0.5)}' | less -S
##四舍五入的运算
作业题
1.任意挑4句前面的命令自己动手敲一遍
##1.1打印example.gtf的第9列
less -S Data/example.gtf | awk '{print $9}' | less -S
##1.2定义分隔符为制表符
less -S Data/example.gtf | awk -F '\t' '{print $9}' | less -S
##1.3匹配UTR的行
less -S Data/example.gtf | awk '/UTR/{print $0}' | less -S
##1.4
less -s Data/example.gtf | awk 'BEGIN{print "find UTR feature"}/UTR/{print $0} END{print "end"}' | less -S
###一定要注意单引号,双引号,小括号,花括号的成对
2.使用head查看example.gtf文件
head Data/example.gtf
3.将2结果传递给awk,输出含有ENSEMBL的行
##第一种做法,用匹配关键词
head Data/example.gtf | awk '/ENSEMBL/{print $0}' | less -S
##第二种做法,用if语句
less -S Data/example.gtf | awk '{if($2=="ENSEMBL") print $0}' | less -S
##因为处理的是列,定义分隔符为制表符
less -S Data/example.gtf | awk 'BEGIN{FS="\t"} {if($2=="ENSEMBL") print $0}' | less -S
4.结合所学,输出以下结果:
#可以用cut命令把第9列切出来
head Data/example.gtf | cut -f 9
#用awk命令把第9列打印出来
head Data/example.gtf | awk '{print $9}'
#定义分隔符
head Data/example.gtf | awk -F '\t' '{print $9}'
##第9类列的所有东西都被打印出来了。
##第2,第4,第6是我们想要的结果(我之前的思路错了)
head Data/example.gtf | awk -F '\t' '{print $9}' | awk '{print $2,$4,$6}'
##两个awk命令一起用
##最后需要把“”和;去掉
##我们之前没有学过删除字符,用sed命令的替换
head Data/example.gtf | awk -F '\t' '{print $9}' | awk '{print $2,$4,$6}' | sed -e 's/"//' -e 's/;//'
##只替换第一处的“和;
##sed命令替换时,只默认替换第一处,加g,实现全局替换
head Data/example.gtf | awk -F '\t' '{print $9}' | awk '{print $2,$4,$6}' | sed -e 's/"//g' -e 's/;//g'
小郭老师很耐心一步步的讲解,方便理解。
根据老师的提示,自己尝试其它做法:
less -S Data/example.gtf
##先查看图中的三列信息是在example.gtf里的第几列,发现需要提取的信息在分别在10,12,14列
head Data/example.gtf | awk -F '\t' '{print $10,$12,$14}'
###需要注意观察$10,$12,$14之间不是通过\t分隔的,
head Data/example.gtf | awk -F '' '{print $10,$12,$14}'
##换成空格为分隔符,但是结果错,空格不是空白,单引号里要加空格
head Data/example.gtf | awk -F ' ' '{print $10,$12,$14}'
##其实awk默认分隔符为空格,不用-F参数
head Data/example.gtf | awk '{print $10,$12,$14}'
最后的步骤和小郭老师的一样
##用sed的命令替换,字符串的双引号,以及;分隔符,只用到一个awk命令
head Data/example.gtf | awk '{print $10,$12,$14}' | sed -e 's/"//g' -e 's/;//g'
说明:
以上内容主要是跟着生信技能树的教学视频和课件内容学习做的笔记,小郭老师讲得很详细,举一反三,方便记忆和理解。