RepeatMasker配置:
1、TRF
TRF(Tandem Repeats Finder)在RepeatMasker安装前必需要提前配置好,这个可以使用conda直接安装。
conda install TRF
2、序列搜索引擎(4选1即可)
RepeatMasker需要序列搜索引擎,以实现输入基因组序列和参考库中序列的比对,在RepeatMasker安装前必需要提前配置好。RepeatMasker主要通过以下4种工具实现序列比对功能,CrossMatch、RMBlast、ABBlast、HMMER,因此我们需要从中至少选1个。
选择了RMBlast,(是一堆blast的程序),这个也可以使用conda直接安装。
conda install RMBlast
记得放到环境里面
3、RepeatMasker
可以conda安装
conda install RepeatMasker
也可手动安装。
前两个工具配置好后,正式安装RepeatMasker
wget http://www.repeatmasker.org/RepeatMasker-open-4-0-6.tar.gz
tar xzvf RepeatMasker-open-4-0-6.tar.gz
cd RepeatMasker
chmod -R 755 *
./configure #执行后,根据提示信息一步步来。
(1)首先是perl环境,默认自动检测,或者手动更改perl主程序路径后回车继续。
(2)然后是TRF,默认自动检测,或者手动更改TRF主程序所在路径后(可通过which trf获取,找到trf所在的位置,pwd打印目录),回车继续。
再然后是序列搜索引擎,因为刚才安装的是RMBlast,所以我们这里选择2。然后在接下来的新界面中,将RMBlast主程序所在路径输入后(可通过which rpsblast获取,比方说我conda安装的rpsblast程序所在“/home/my/software/Miniconda3/bin”),回车返回主界面后,再选择5,就完成了。
你也可以指定多种序列搜索引擎后,再选择5,不过实际运行时,一次只能选择一种序列比对方式。
RepeatMasker提示安装完成后,最后配置环境变量。
#例如,我的RepeatMasker安装路径是在“/home/my/software/RepeatMasker”
export PATH=/home/my/software/RepeatMasker:$PATH
#这时候没啥问题的话应该可以看到帮助界面了
RepeatMasker -h
如果提示有perl模块未配置好,通过cpan命令安装相应的perl模块即可。
出现报错
如果反复提示以下关于“Text::Soundex module”模块的错误(即便你这个perl模块确实安装好了),建议将perl环境更改为/usr/bin下的perl(对,不建议使用conda中的perl),并sudo cpan重新安装该模块后,再重新安装RepeatMasker(安装时指定系统/usr/bin下的perl),就解决了。
4、数据库文件(Repbase)
Repbase,是遗传信息研究所发布的重复DNA数据库,收录了非常多的物种基因组的重复序列信息。在这里,我们将通过它对自己的物种基因组的重复序列进行检测。
登录REPBASE数据库(https://www.girinst.org/server/RepBase/index.php),需注册才能下载,非营利性组织可以免费使用,人工审批,需要等待1-2天时间。在官网上直接下载的肯定是最新版的。
在RepeatMasker安装完毕后,将Repbase库解压放置到RepeatMasker安装路径下的“Libraries”中就可以了。
(我的安装路径,RepeatModeler一般也在里面)
/nfs_home/chenx/conda-envs/gen/share/RepeatMasker/Libraries