EVM基因组注释合并,你真的做对了吗?

基因组注释这个东西攻略是五花八门,有些地方其实写错了,作者还以为很对,为什么呢,因为EVIDENCEModerler经常在错误的输入文件下也能跑,只是你不知道罢了。

今天带大家顺一下EvidenceModerer正规的流程:

前期准备:

  1. 至少三个从头预测软件,对基因组进行基因预测 GlimmerHMM, SNAP, Augustus, GeneMarkHMM, and FGeneSH.

  2. 同源预测

  3. 转录组预测 PASA 或者StringTie

这时候注意了,EvidenceModerler接受两种GFF格式,GFF格式有两种!如果搞错了输入格式,相当于这部分没读入系统,没有用上这部分信息!

第一种GFF 被称为基因结构GFF


Gene Structure

第二种GFF 被称为比对GFF


Alignment

同源预测和转录组比对GFF各自一个不用动,其他的凡是基因结构注释的通过cat合并到一起。

然后是权重文件示例:

ABINITIO_PREDICTION augustus 1
ABINITIO_PREDICTION twinscan 1
ABINITIO_PREDICTION glimmerHMM 1
PROTEIN spliced_protein_alignments 1
PROTEIN genewise_protein_alignments 2
TRANSCRIPT spliced_transcript_alignments 1
TRANSCRIPT PASA_transcript_assemblies 10
OTHER_PREDICTION PASA_transdecoder 5

最基本的要求: weight(pasa) >> weight (protein) >= weight(prediction)
推荐用法:
从头预测weight = 1
蛋白比对,weight = 1
PASA 转录组比对, weight = 10

然后现在的EVM版本已经更新到2.1了,1.0需要自己切分注释十分麻烦,2.1只要准备好:

  1. denovo 的文件
  2. 同源比对的文件
  3. 转录组 比对的文件

三个文件就行,会直接生成最终的GFF。

这里注意两个参数 --segmentSize 和 --overlapSize

动物建议设置 --segmentSize 1000000 --overlapSize 100000
植物可以稍微短一些

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容