基因组注释--重复序列注释（二）：RepeatMasker安装与使用

前言

RepeatMasker是一个通过已有数据库预测重复序列的软件，依赖于RepBase数据库和第三方比对软件（RMBlast、Crossmatch、HMMER、ABBlast），是重复序列注释的重要软件。

安装环境

perl - -V5.8.0及以上版本
Python 3 和 h5py 模块
搜索引擎 - -如RMBlast
TRF - - Tandem Repeat Finder
Repeat Database -- 已有重复序列库

安装

（一） h5py、TRF和RMBlast安装见小编另一篇博客 RepeatModeler安装与使用

（二）RepeatMasker下载与解压

wget http://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.1.tar.gz
tar -pzxvf RepeatMasker-4.1.1.tar.gz

（三）Repeat Database更新：

RepeatMasker软件自带有Dfam（RepBase数据库HMM版）的常见重复序列库，要更新完整的Dfam需去官网下载

wget https://www.dfam.org/releases/Dfam_3.2/families/Dfam.h5.gz
gunzip Dfam.h5.gz
mv Dfam.h5 /usr/local/RepeatMasker/Libraries  #覆盖软件自带的Dfam

（四）RepeatMasker安装

1.perl ./configure
2.输入TRF软件所在路径：/software/annotation/TRF-4.10/bin/trf
3.选择搜索引擎：小编选的是2. RMBlast，其他搜索引擎可以根据需求选择（可多次操作），输入 RMBlast路径：/software/annotation/rmblast-2.10.0/bin 并确认默认搜索引擎

使用参数

./RepeatMasker -h 可以看到各参数详情，小编介绍几个主要的参数：
默认设置用于屏蔽灵长类动物中所有类型的重复顺序。
-e （-engine） [crossmatch|wublast|abblast|ncbi|rmblast|hmmer]
-pa（-parallel）[数字] 并行使用的处理器数量仅适用于批处理超过50 kb的文件或序列）
RMBlast（4 cores） ABBlast（4 cores） nhmmer（2 cores） crossmatch（1 core）
-s 缓慢搜索；敏感度提高0-5％，比默认速度慢2-3倍
-q 快速搜索；敏感度降低5-10％，比默认速度快2-5倍
-qq 紧急搜索；敏感度降低约10％，比默认速度快4-> 10倍（在大多数情况下，快速搜索是可以的）
-nolow 不会掩盖低复杂度的DNA或简单的重复序列
-noint 仅掩盖低复杂/简单重复（无散布重复）
-norna 不掩盖小RNA（伪）基因
-alu 仅遮盖Alus（以及7SLRNA，SVA和LTR5）（仅用于灵长类动物DNA）
-div [数字] 仅掩盖那些与共识序列差异小于x％的重复
-lib [文件名] 允许使用自定义库（例如来自其他物种）
-cutoff [数字] 设置使用-lib时遮罩重复的截止分数（默认为225）
-species <query species> > 指定输入序列的种类或进化枝。物种名称，必须是有效的NCBI分类数据库名称，并包含在其中在RepeatMasker重复数据库中。如：-species human/mouse/rattus/"ciona savignyi"/arabidopsis/
-a 对齐方式写入.alignde 的输出文件中
-no_is 跳过细菌插入元素检验

示例

RepeatMasker -a -nolow -no_is -norna -parallel 4  -s genome.fa

使用详情见 RepeatMasker Documentation

最后编辑于：2020.11.07 23:40:45