常见的生物信息分析中,基因组的注释文件和参考基因组具有相同重要的功能,如果说参考基因组是一个蕴含着所有资源的宝岛,那么基因组的注释文件就是航海路线图。因此,理解基因组注释文件,将会极大地帮助我们提高生信分析效率。今天,我们的主题就来探究常见的注释文件gff3和gtf。
gff3文件介绍
GFF3(General Feature Format Version 3)是GMOD项目研发的一套存储序列结构信息的通用格式文件,主要进行一个scaffold或者染色体上面每个位置都是什么序列元件的注释信息总结。
如图所示,gff3文件主要有以#开始的行数,为基因注释行,起到注释信息的作用,没有#的行,表示主体部分,整个文件以tab键分隔。
中国春小麦参考基因组各个染色体长度的信息,即保存在#行,不过染色体的长度不是从1开始,而是从第一个注释的基因起始位置开始,这点需要注意,可以从下图看到。
编号1即为第一个基因的起始位置,
编号3为中国春参考基因的第一个基因,因为这里用的是02G版本的基因注释文件,可以看到,它也显示了previous的基因ID,也就是01G时候的基因ID,这里为各位利用小麦做基因组注释的同学提个醒,可以用这个进行01G和02G版本的ID转换。
编号4,是第二基因
编号5,是一个基因的结构注释,该基因chr1a: 40098-70338,是总长度,包括mrna序列,three_prime_UTR(3' UTR), exon,CDS,five_prime_UTR(5' UTR),exon,five_prime_UTR。
gff3文件包含9列,
1. 染色体,chr1A
2. 版本号,可以看到属于IWGSC_v1.1_201706
3. 基因结构注释,包括gene,mrna,exon,CDs等
4. 起始位置
5. 终止位置
6. score - 该基因结构的评分,一般是对基因结构做比对时的E-value和ab initio gene prediction features时的P-value
7. “+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
8. 步进。对于编码蛋白质的CDS来说,用0,1或2 指定下一个密码子开始的位置。分别表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。
9. attributes - 该基因其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于基因结构比较复杂,一个序列元件(例如:exon)可能属于另外一个基因(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome用0,1或2。在中国春v1.1上的参考基因组,同样包含previous选项,这是对使用v1.0的基因ID转换时用的。
GTF文件,GTF全称是Gene transfer format
同样包含9列,以tab键分隔,和gff3文件类似,相信对gff3了解的话,再理解gtf就很容易了,这里我们不再赘述。
gff3文件转为gtf文件,利用gffread软件即可实现
#gff3转为gtf
gffread reference.gff3 -T -o reference.gtf
#gtf转为gff3
gffread reference.gtf -o- > reference.gff3
有些时候的分析,例如htseq-count对reads进行计数,一般使用gtf文件,所以掌握gff3和gtf文件是非常重要的。