基因组注释这个东西攻略是五花八门,有些地方其实写错了,作者还以为很对,为什么呢,因为EVIDENCEModerler经常在错误的输入文件下也能跑,只是你不知道罢了。
今天带大家顺一下EvidenceModerer正规的流程:
前期准备:
至少三个从头预测软件,对基因组进行基因预测 GlimmerHMM, SNAP, Augustus, GeneMarkHMM, and FGeneSH.
同源预测
转录组预测 PASA 或者StringTie
这时候注意了,EvidenceModerler接受两种GFF格式,GFF格式有两种!如果搞错了输入格式,相当于这部分没读入系统,没有用上这部分信息!
第一种GFF 被称为基因结构GFF
第二种GFF 被称为比对GFF
同源预测和转录组比对GFF各自一个不用动,其他的凡是基因结构注释的通过cat合并到一起。
然后是权重文件示例:
ABINITIO_PREDICTION augustus 1
ABINITIO_PREDICTION twinscan 1
ABINITIO_PREDICTION glimmerHMM 1
PROTEIN spliced_protein_alignments 1
PROTEIN genewise_protein_alignments 2
TRANSCRIPT spliced_transcript_alignments 1
TRANSCRIPT PASA_transcript_assemblies 10
OTHER_PREDICTION PASA_transdecoder 5
最基本的要求: weight(pasa) >> weight (protein) >= weight(prediction)
推荐用法:
从头预测weight = 1
蛋白比对,weight = 1
PASA 转录组比对, weight = 10
然后现在的EVM版本已经更新到2.1了,1.0需要自己切分注释十分麻烦,2.1只要准备好:
- denovo 的文件
- 同源比对的文件
- 转录组 比对的文件
三个文件就行,会直接生成最终的GFF。
这里注意两个参数 --segmentSize 和 --overlapSize
动物建议设置 --segmentSize 1000000 --overlapSize 100000
植物可以稍微短一些