前言
RepeatMasker是一个通过已有数据库预测重复序列的软件,依赖于RepBase数据库和第三方比对软件(RMBlast、Crossmatch、HMMER、ABBlast),是重复序列注释的重要软件。
安装环境
perl - -V5.8.0及以上版本
Python 3 和 h5py 模块
搜索引擎 - -如RMBlast
TRF - - Tandem Repeat Finder
Repeat Database -- 已有重复序列库
安装
(一) h5py、TRF和RMBlast安装见小编另一篇博客 RepeatModeler安装与使用
(二)RepeatMasker下载与解压
wget http://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.1.tar.gz
tar -pzxvf RepeatMasker-4.1.1.tar.gz
(三)Repeat Database更新:
RepeatMasker软件自带有Dfam(RepBase数据库HMM版)的常见重复序列库,要更新完整的Dfam需去官网下载
wget https://www.dfam.org/releases/Dfam_3.2/families/Dfam.h5.gz
gunzip Dfam.h5.gz
mv Dfam.h5 /usr/local/RepeatMasker/Libraries #覆盖软件自带的Dfam
(四)RepeatMasker安装
1.perl ./configure
2.输入TRF软件所在路径:/software/annotation/TRF-4.10/bin/trf
3.选择搜索引擎:小编选的是2. RMBlast,其他搜索引擎可以根据需求选择(可多次操作),输入 RMBlast路径:/software/annotation/rmblast-2.10.0/bin 并确认默认搜索引擎
使用参数
./RepeatMasker -h 可以看到各参数详情,小编介绍几个主要的参数:
默认设置用于屏蔽灵长类动物中所有类型的重复顺序。
-e (-engine) [crossmatch|wublast|abblast|ncbi|rmblast|hmmer]
-pa(-parallel)[数字] 并行使用的处理器数量仅适用于批处理超过50 kb的文件或序列)
RMBlast(4 cores) ABBlast(4 cores) nhmmer(2 cores) crossmatch(1 core)
-s 缓慢搜索;敏感度提高0-5%,比默认速度慢2-3倍
-q 快速搜索; 敏感度降低5-10%,比默认速度快2-5倍
-qq 紧急搜索;敏感度降低约10%,比默认速度快4-> 10倍(在大多数情况下,快速搜索是可以的)
-nolow 不会掩盖低复杂度的DNA或简单的重复序列
-noint 仅掩盖低复杂/简单重复(无散布重复)
-norna 不掩盖小RNA(伪)基因
-alu 仅遮盖Alus(以及7SLRNA,SVA和LTR5)(仅用于灵长类动物DNA)
-div [数字] 仅掩盖那些与共识序列差异小于x%的重复
-lib [文件名] 允许使用自定义库(例如来自其他物种)
-cutoff [数字] 设置使用-lib时遮罩重复的截止分数(默认为225)
-species <query species> > 指定输入序列的种类或进化枝。物种名称,必须是有效的NCBI分类数据库名称,并包含在其中在RepeatMasker重复数据库中。如:-species human/mouse/rattus/"ciona savignyi"/arabidopsis/
-a 对齐方式写入.alignde 的输出文件中
-no_is 跳过细菌插入元素检验
示例
RepeatMasker -a -nolow -no_is -norna -parallel 4 -s genome.fa