2023-04-14 GFF与GTF的相互转换

现在主流的基因组注释文件GFF3,分为9列,并用制表符分隔。
1、序列名(seqname)。一般是染色ID,chr1
2、来源(source)。一般软件名EVM
3、特征类(feature type)。gene, CDS, exon等。
4、基因组上的起始位点(start position)。
5、基因组上的终止位点(end position)。
6、得分(score)。 比如AUGUSTUS预测得分,不提供就用 . 代替。
7、正负链(strand)。
8、读码框(frame)。基因特征为CDS、起始密码子或终止密码子时,该列的值为0、1或2。0表示该读码框从当前位点开始,1表示该位点下一个碱基开始读码,2表示该位点后两个碱基开始读码。若为其他特征则用 . 表示。
9、属性(Attributes)。包含很多属性的列表。


image.png

GFT格式也分为9列,前8列基本一样,主要是第九列不同


image.png

格式转换

conda install -c bioconda agat
conda install gffread
'''
agat_convert_sp_gff2gtf.pl --gff 7.\ Garlic.gff3 -o Asa.gtf gffread -T Arabidopsis_thaliana.TAIR10.53.gff3 -o test.gtf
'''

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容