awk正则
运算符 | 功能 | 示例 | 描述 |
---|---|---|---|
^ | 行首定位符 | /^root/ | 匹配所有已root开头的行 |
$ | 行尾定位符 | /root$/ | 匹配所有已root结尾的行 |
. | 匹配任意单个字符 | /r..t/ | 匹配r,然后任意两个字符,再以t结尾 |
* | 匹配0个或多个前导字符 | /a*ool/ | 匹配0个或者多个a之后紧跟着ool的行,比如ool,aaool等 |
+ | 匹配1个或者多个前导字符 | /a+b/ | 匹配一个或多个a+b的行,比如ab,aab等 |
? | 匹配0个或多个前导字符 | a?b/ | 匹配b或者ab行 |
[] | 匹配指定字符组内的任意一个字符 | ^[abc] | 匹配以字母a或b或c开头的行 |
[^] | 匹配不在指定字符组内的任意一个字符 | /[abc/ | 匹配不以字母a或b或c开头的行 |
(..) | 子表达字符 | /(rool)+/ | 表示一个或者多个rool组合,当有一些字符需要组合时,使用括号 |
| | 或者的意思 | /(root)|B/ | 匹配root或者B的行 |
\ | 转义字符 | /a\/\// | 匹配a// |
~,!~ | 匹配,不匹配的条件语句 | $1~/root/ | 匹配第一个字段包含root的所有字符 |
x{m} | 重复字符x,m次 | /root{2}/ | 注意:root加括号和不加括号的区别,x可以表示字符串也可以只是一个字符,这里表示roott |
x{m,} | 重复字符x,至少m次 | /root{2,}/ | 表示rootroot |
x{m,n} | 重复字符x,至少m次 ,不多于n次 | /root{2,3} | 匹配2~3个root的行 |
pattern
1.正则表达模式 / /
pengzw@super-server:~$ cat test2.txt
A B C
Hello word!
Write a word!
I love dog!
Good good study!
精确查询
pengzw@super-server:~$ awk '/word/{print $0}' test2.txt #匹配word的行
Hello word!
Write a word!
模糊查询
pengzw@super-server:~$ awk '/o.*/{print $0}' test2.txt #匹配所有含有0的行,包括一个或多个o
Hello word!
Write a word!
I love dog!
Good good study!
2.行范围模式
对行进行操作,用到内置变量。
内置变量
变量 | 描述 |
---|---|
$n | 当前记录的第n个字段,字段间由FS分隔,$n表示第n个域 |
$0 | 完整的输入记录,$0则表示所有域 |
ARGC | 命令行参数的数目 |
ARGIND | 命令行中当前文件的位置(从0开始算) |
ARGV | 包含命令行参数的数组 |
CONVFMT | 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组 |
ERRNO | 最后一个系统错误的描述 |
FIELDWIDTHS | 字段宽度列表(用空格键分隔) |
FILENAME | 当前文件名 |
FNR | 各文件分别计数的行号 |
FS | 字段分隔符(默认是任何空格) |
IGNORECASE | 如果为真,则进行忽略大小写的匹配 |
NF | 一条记录的字段的数目 |
NR | 已经读出的记录数,就是行号,从1开始 |
OFMT | 数字的输出格式(默认值是%.6g) |
OFS | 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符 |
ORS | 输出记录分隔符(默认值是一个换行符) |
RLENGTH | 由match函数所匹配的字符串的长度 |
RS | 记录分隔符(默认是一个换行符) |
RSTART | 由match函数所匹配的字符串的第一个位置 |
SUBSEP | 数组下标分隔符(默认值是/034) |
示例:
取拟南芥gff3文件的前十行为test.gff
== 字符双引号
pengzw@super-server:~$ cat test.gff
##gff-version 3
##annot-version TAIR10
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1 phytozomev10 mRNA 3631 5899 . + . ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=
Chr1 phytozomev10 five_prime_UTR 3631 3759 . + . ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G0101
pengzw@super-server:~$ awk '$3 =="gene" {print $0 }' test.gff #将第三列为gene的行输出到屏幕上
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
打印两列 $4"\t"$5,需要制定分割符如"\t"
pengzw@super-server:~$ awk '$1 =="Chr1" && $4 >= 1 && $5 <=5000 {print $0 }' test.gff
Chr1 phytozomev10 five_prime_UTR 3631 3759 . + . ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
pengzw@super-server:~$ awk '$1 =="Chr1" && $4 >= 1 && $5 <=5000 {print $4$5 }' test.gff
36313759
pengzw@super-server:~$ awk '$1 =="Chr1" && $4 >= 1 && $5 <=5000 {print $4"\t"$5 }' test.gff
3631 3759
打印1到4行的内容
pengzw@super-server:~$ awk 'NR>=1 && NR<=4 {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1 phytozomev10 mRNA 3631 5899 . + . ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
两个正则/gff/,/gene/ {print $0},注意:正则1和正则2,都以第一次匹配到的行为准。
pengzw@super-server:~$ awk '/gff/,/gene/ {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
FS 设置成";"
RS 记录分隔符变量
OFS 输出字段分隔符
ORS 输出记录分隔符
多个输出可以指定相同的分割符号 print ,分割
pengzw@super-server:~$ awk 'BEGIN{FS=";";RS="\n";OFS="#"}{print $1,$2,$3,$4}' at.gff
##gff-version 3###
##annot-version TAIR10###
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10#Name=AT1G01010##
Chr1 phytozomev10 mRNA 3631 5899 . + . ID=AT1G01010.1.TAIR10#Name=AT1G01010.1#pacid=19656964#longest=1
Chr1 phytozomev10 five_prime_UTR 3631 3759 . + . ID=AT1G01010.1.TAIR10.five_prime_UTR.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1 phytozomev10 CDS 3760 3913 . + 0 ID=AT1G01010.1.TAIR10.CDS.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1 phytozomev10 CDS 3996 4276 . + 2 ID=AT1G01010.1.TAIR10.CDS.2#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1 phytozomev10 CDS 4486 4605 . + 0 ID=AT1G01010.1.TAIR10.CDS.3#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1 phytozomev10 CDS 4706 5095 . + 0 ID=AT1G01010.1.TAIR10.CDS.4#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1 phytozomev10 CDS 5174 5326 . + 0 ID=AT1G01010.1.TAIR10.CDS.5#Parent=AT1G01010.1.TAIR10#pacid=19656964#
3.BEGDIN和END模式
BEGIN是在开始读取一个文件之前进行的操作,其后面的代码只会运行一次
END 指令和 BEGIN 正好相反,在 awk 读取并且处理完文件的所有内容之后,才会执行 END 后面的代码
pengzw@super-server:~$ cat test.gff
A B C D E F G H I
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1 phytozomev10 mRNA 3631 5899 . + . ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
Chr1 phytozomev10 five_prime_UTR 3631 3759 . + . ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
pengzw@super-server:~$ awk 'BEGIN{print "C D"} NR>=2 {print $3"\t"$4}' test.gff
C D
gene 3631
mRNA 3631
five_prime_UTR 3631
pengzw@super-server:~$ awk 'BEGIN{print "C D"} END{print"end"} NR>=2 {print $3"\t"$4}' test.gff
C D
gene 3631
mRNA 3631
five_prime_UTR 3631
end
4.action 筛选
awk的大括号里面的代码不仅仅只有打印的功能,还可以进行常规的算数运算
+ - 运算符
pengzw@super-server:~$ awk 'BEGIN{print "C D E"} END{print"end"} NR>=2 {print $3,$4,$5,$5-$4}' test.gff
C D E
gene 3631 5899 2268
mRNA 3631 5899 2268
five_prime_UTR 3631 3759 128
end
action中使用条件语句if,两个中括号,一个括号
|| 是或运算, 两边有一个为true,表达式就为true, 意为满足条件A或满足条件B。
&&是与运算,两边都为true,表达式才为true,意为满足条件A且满足条件B。
### 且
pengzw@super-server:~$ awk '{if($3=="gene" && $4>="10"){print $3,$4,$5,$5-$4}}' test.gff
gene 3631 5899 2268
###或
pengzw@super-server:~$ awk '$3=="gene" || $3=="mRNA " test.gff
输出不包含@符号的行
awk '!/@/' a.txt # 输出不包含@符号的行