注释文件无法提取最长转录本的解决方法

  我最近在做比较基因组学分析的过程中遇到了一个问题,就是从数据库中下载到的注释文件,明明是gff3格式,却无法按照常规方法提取最长转录本。注释文件中显示来源于DDBJ数据库。无独有偶,我下载到的所有类似于这种来源于DDBJ数据库的gff3注释文件均提取不出来最长转录本,这也让我苦恼了很长时间,注释文件的格式类似下图:



  经过多方面的尝试,包括使用命令行转换格式、gtf转ensembl格式的gtf、gtf转gff等操作,均行不通;后来发现,原来是因为注释文件缺乏mRNA feature导致。存在一些基因结构注释信息文件,缺少了mRNA feature,只有exon和cds,或者只有cds。这类文件不仅无法进行比较基因组学的分析,对于一些转录组分析流程,如STAR align - stringtie这个流程来说,可能也是直接无法使用的。

  于是我使用TBtools的GXF Fix进行了注释文件的修复工作,然后就可以提取出来最长转录本了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容