RepeatMasker是一个用于识别和屏蔽(mask)基因组中重复序列的软件工具。重复序列在基因组中占据了很大的比例,并且对基因组的结构和功能具有重要的影响。RepeatMasker通过将基因组序列与已知的重复序列数据库比对,识别和标记出基因组中的重复序列区域。
RepeatMasker的工作流程通常包括以下几个步骤:
准备重复序列数据库:RepeatMasker需要一个已知的重复序列数据库,通常使用RepBase或其他公共数据库。这个数据库包含了已知的重复序列的序列信息和注释。
基因组序列比对:RepeatMasker将待分析的基因组序列与重复序列数据库进行比对。它使用一种称为Smith-Waterman算法的局部序列比对方法来查找相似性较高的序列区域。
标记重复序列区域:通过比对结果,RepeatMasker可以识别出基因组中与重复序列相似的区域,并将其标记为重复序列。标记的方法通常是在基因组序列中用特殊的字符(通常是小写字母或N)替换重复序列区域,以便进一步的分析和注释。
输出结果:RepeatMasker生成一个包含重复序列标记信息的结果文件,通常以GFF或BED等格式保存。这些结果可以用于后续的基因组注释、结构分析和功能研究。
1. 依赖环境
软件的运行需要提前安装 TRF、Crossmatch、RMBlast、HMMER3.1、ABBlast。
TRF 的安装使用见之前分享的一篇内容 基于 TRF 软件预测序列中的 TE 元件。
安装 Crossmatch:
## 该软件需要在官网上使用学术邮箱申请,这里用的是另一位网友的备份:
wget https://www.biochen.org/public/software/phrap_cross_match_swat_1.090518.zip
unzip https://www.biochen.org/public/software/phrap_cross_match_swat_1.090518.zip
./configure
make
安装 rmblast:
wget https://www.repeatmasker.org/rmblast/rmblast-2.14.1+-x64-linux.tar.gz
tar -xzvf rmblast-2.14.1+-x64-linux.tar.gz
安装 HMMER3.1:
wget http://eddylab.org/software/hmmer/hmmer-3.1b1.tar.gz
tar -xvzf hmmer-3.1b1.tar.gz
./configure --prefix=/your/own/path
make
make install
安装 ABBlast:
wget https://www.biochen.org/public/software/ab-blast/ab-blast-20200317-linux-x64.tar.gz
tar zxf ab-blast-20200317-linux-x64.tar.gz
2. RepeatMasker 的安装
wget https://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.6.tar.gz
gunzip RepeatMasker-4.1.6.tar.gz
tar xvf RepeatMasker-4.1.6.tar
./configure
接下来需要对环境进行配置,首先需要下载重复序列数据库 RepBase 库:

给出 TRF 的安装路径:

依次配置 Crossmatch、RMBlast、HMMER3.1、ABBlast:
