使用 RepeatMasker + RepeatModeler 完成重复序列注释

一、使用RepeatMasker进行基因组重复序列注释

1、安装conda

2、预选安装依赖库包，安装RepeatMasker，下载Repbase并解压至～/RepeatMasker/Libraries目录下面，配置./configure，完成。设置环境变量PATH，或者绝对路径使用RepeatMasker。

3、直接使用RepeatMasker

./RepeatMasker/RepeatMasker -species capsella -pa 40 -gff -dir CbpRepeat1/ Cbp.LG.fasta

具体参数见RepeatMasker -h 或者参见RepeatMasker官方文档

输出关注：

xxx.fasta.masked 重复用N代替（屏蔽）---> 后续基因注释用 ***

xxx.fasta.out.gff 以gff2形式存放重复序列出现位置

xxx.fasta.tbl 该文件记录分类信息 *

二、使用RepeatModeler进行从头预测:

相关网站 http://www.repeatmasker.org/RepeatModeler/ 官方安装指南

https://anaconda.org/ 可解决部分库包安装

相关问题解决办法网址：见CSDN、简书以及博客园的收藏夹

1、install Prerequisites

通过conda自动安装完成一般不需要提供PATH，如Perl、RECON、RepeatScout、trf、mafft等；

wget手动下载配置则需要在配置过程中添加路径，如rmblast、cd-hit、Ltr_retriever、NINJA等。

不同的环境下，conda能应付的prerequisite不尽相同！不能conda就手动wget！

2、perl ./configure 过程

遇到perl模块不够，可到anaconda.org上搜索perl-modules-name找到，如perl-json等

通过conda install perl-modules-name可自动安装完成。

通过CPAN手动安装问题太多！！！

UCSCTOOLS: /home/liuxin/UCSCTOOLS

rmblastn配置: /home/liuxin/rmblast-2.11.0/bin

LTR: /home/liuxin/LTR_retriever-2.9.0

NINJA: /home/liuxin/NINJA-0.98-cluster_only/NINJA

3、RepeatModeler配置环境变量

vi ~/.bashrc

export PATH="~/RepeatModeler-2.0.3:$PATH"

source ~/.bashrc

使用RepeatModeler:

第一步: 创建索引数据库

BuildDatabase -name capselladb xxx.fa

第二步: 运行从头预测

RepeatModeler -pa 4 -database capselladb -LTRStruct

输出关注: consensi.fa 自身比对找到的一致性序列

consensi.fa.classified 重复序列分类结果 --> 自定重复序列库 ***

consensi.fa.masked denovo屏蔽后序列，不常用

第三步: 引入自定的lib整合RepeatModeler+RepeatMasker得出综合结果

RepeatMasker -e ncbi -pa 40 -nolow -norna -lib consensi.fa.classified -dir xxx/ xxx.fa

例如: RepeatMasker -e ncbi -pa 40 -nolow -norna -lib /home/liuxin/RM_Results/RM_3828573.WedApr271359172022/consensi.fa.classified /home/liuxin/Cbp.LG.fasta

使用 RepeatMasker + RepeatModeler 完成重复序列注释

推荐阅读更多精彩内容