现在主流的基因组注释文件GFF3,分为9列,并用制表符分隔。
1、序列名(seqname)。一般是染色ID,chr1
2、来源(source)。一般软件名EVM
3、特征类(feature type)。gene, CDS, exon等。
4、基因组上的起始位点(start position)。
5、基因组上的终止位点(end position)。
6、得分(score)。 比如AUGUSTUS预测得分,不提供就用 . 代替。
7、正负链(strand)。
8、读码框(frame)。基因特征为CDS、起始密码子或终止密码子时,该列的值为0、1或2。0表示该读码框从当前位点开始,1表示该位点下一个碱基开始读码,2表示该位点后两个碱基开始读码。若为其他特征则用 . 表示。
9、属性(Attributes)。包含很多属性的列表。

image.png
GFT格式也分为9列,前8列基本一样,主要是第九列不同

image.png
格式转换
conda install -c bioconda agat
conda install gffread
'''
gffread -T Arabidopsis_thaliana.TAIR10.53.gff3 -o test.gtf
'''