RepeatModeler2.0安装及使用

https://www.jianshu.com/p/bccdc3c68ace

RepeatModeler已更新,拥有了一些新的功能,可以识别LTR的结构

在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + RepeatMasker。

RepeatModeler的依赖工具可以conda安装或者手动安装,推荐conda

安装需要的环境

perl和Text::Soundex模块-- V5.8.8及以上版本
Python 3 和 h5py 模块 -- RepeatMasker软件需要
RECON -- De Novo Repeat Finder
RepeatScout -- De Novo Repeat Finder
TRF-- Tandem Repeat Finder
RepeatMasker & Libraries
RMBlast NCBI Blast的修改版本,可与RepeatMasker和RepeatModeler一起使用,可选
ABBlast 比NCBI Blast更快,灵敏度更高的搜索引擎,可选

Text::Soundex和h5py 模块
cpan install Text::Soundex #perl模块安装
pip3 install numpy scipy matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple #h5py必须先装此模块,-i表示清华镜像
pip3 install h5py -i https://pypi.tuna.tsinghua.edu.cn/simple 

1、RepeatMasker、TRF、RMblast
在正式安装RepeatModeler主程序之前,需要提前配置好其依赖的工具。
见前文(RepeatMasker的安装与使用)(https://www.jianshu.com/p/ffdbedae80fa)。

2、RECON(从头预测功能实现的核心组件)

conda install RECON    #自动配置在conda环境中
wget http://www.repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz
tar -zxvf RECON-1.08.tar.gz 
cd RECON-1.08/src
make ; make install #已经将使用软件安装在 RECON-1.08/bin下

3、RepeatScout(从头预测功能实现的核心组件)

conda install RepeatScout


wget http://www.repeatmasker.org/RepeatScout-1.0.6.tar.gz
tar -xzvf RepeatScout-1.0.6.tar.gz
cd RepeatScout-1.0.6 
make # 会生产build_lmer_table和RepeatScout两个程序

4、可选软件,运行LTR结构搜索必须软件,也可以不安装
LtrHarvest(是GenomeTools套件的一部分,安装genometools即可。)
MAFFT

conda install genometools-genometools
conda install -c bioconda mafft



wget http://genometools.org/pub/genometools-1.6.2.tar.gz
tar -pzxvf genometools-1.6.2.tar.gz
cd genometools-1.6.2
make threads=yes  #设置多线程模式
make prefix=/software/annotation/genometools/1.6.2 install



Ltr_retriever,解压即可使用

https://github.com/oushujun/LTR_retriever/archive/master.zip
unzip LTR_retriever-master

CD-HIT和Ninja,解压后编译一下就好了

wget https://github.com/weizhongli/cdhit/archive/master.zip
unzip cdhit-master.zip && cd cdhit-master/
sudo make

wget https://github.com/TravisWheelerLab/NINJA/archive/master.zip
unzip master.zip && cd NINJA/
sudo make

5、RepeatModeler
前面的工具配置好后,源码编译RepeatModeler,和RepeatMasker安装过程很像,需要一步步指定所依赖的环境。

#RepeatModeler
wget http://www.repeatmasker.org/RepeatModeler/RepeatModeler-2.0.1.tar.gz
tar xzvf RepeatModeler-2.0.1.tar.gz

cd RepeatModeler-2.0.1.tar.gz
chmod -R 755 *
perl ./configure

“./configure”执行后,根据提示信息一步步来。

首先是perl环境,推荐使用/usr/bin环境下的perl,即系统perl,使用conda中的perl后面总出问题。回车继续。
RepeatModeler安装路径,默认自动指定安装路径,回车继续。
指定RepeatMasker的安装路径,回车继续。
指定RECON的安装路径,回车继续。
指定RepeatScout的安装路径,回车继续。
指定NSEG的安装路径,回车继续。
指定TRF的安装路径(这个同时也是RepeatMasker安装必需的),回车继续。

最后是序列搜索引擎(这个同时也是RepeatMasker安装必需的),例如我们这里选择2,指定RMBlast主程序所在路径,回车返回主界面后,再选择3,就完成了。
你也可以指定多种序列搜索引擎后,再选择3,不过实际运行时,一次只能选择一种序列比对方式。

这时会有提示:
这个版本的RepeatModeler可以检测LTR的结构,是否配置,可以根据需要自行选择。若需要就按y,然后根据提示选择路径完成配置。

image

这就完成RepeatModeler的安装。

终于把一些列的环境添加完了,最后配置环境变量。

#例如,我的RepeatModeler安装路径是在“/home/my/software/RepeatModeler-open-1.0.11”
export PATH=/home/my/software/RepeatModeler-2.0.1:$PATH

#这时候没啥问题的话应该可以看到帮助界面了
RepeatModeler -h

使用示例:

BuildDatabase -name human human_genomic.fa
RepeatModeler -pa 4 -database human -LTRStruct 
RepeatMasker -e rmblast -lib human-families.fa -pa 4 human_genomic.fa

后续结果跟RepeatModeler1.0的结果差不多
祝大家科研顺利!!!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容