大致上可以分为两步:第一步是从情况不明(新)基因组中注释。第二步是优化和后续分析
一、注释
重复序列在不同物种中含量不同,但是有TElib,比如 GyDB Intro - GyDB org。
- 一般会使用RepeatModeler,ltr-finder对新基因组进行建库,denovo注释。然后使用RepeatMasker,TRF,proteinmask使用lib进行同源注释等。
- 还有一种重复序列的注释软甲是EDTA
conda activate EDTA
(不是试剂是一个软件。 Extensive de-novo TE Annotator)。可以通过在参数中添加无内含子的cds序列作为注释参考。(关于如何获得cds序列:对于新基因组可能需要你自己先进行基因组注释了吧。重测序可以使用前人数据)xxx.EDTA.TElib.fa是最后的lib结果。但根据前人描述,最好不要分割一条染色体一条染色体运行,要整个基因组一起运行。EDTA的限速步骤是最后masker步骤。如果lib.fa文件不再更新了应该就是结束了。
由于我正在分析的物种使用RepeatMasker和RepeatModeler两个软件注释时重复序列只有全基因组的20%。在植物中算是重复序列较少的一类。所以想确认数据准确性,将repeatmodeler和EDTA生成的TElib合并后再RepeatMasker后得到了30%的注释。(仅作参考,这种方法是否可行需要讨论)
二、对重复序列的探索。(LTR)
LTR可以分两类
Class I are retroelements. 在植物基因组中,I类转座因子,LTR-RT(LTR retrotransposons)是基因组扩张的主要原因。Class II are DNA-based transposons. 产生 DNA 重排,影响基因表达。
根据基于 5' 端和 3' 端 LTR 的不同变化(提取后两个序列进行muscle比对)可以推测LTR的插入时间(类似计算WGD时间)。LTR_retrieverGitHub - oushujun/LTR_retriever: LTR_retriever is a highly accurate and sensitive program for identification of LTR retrotransposons; The LTR Assembly Index (LAI) is also included in this package.
是一个可以整合多个软件(如ltr-finder,LTRharvest等)结果的注释软件。
最后得到的TE可以使用TEsorter软件进行分类。分类后的TE就可以根据不同种类建树了 。
提供分析思路供大家参考。欢迎讨论。