RepBase目前不再免费提供,所以就有很多人邮件问我要。我当时在下载RepBase时,要求是不得私下传播,那么为了避免潜在的风险,至少我这里是不提供下载链接,也请不要发邮件给我。
重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是RepeatMasker
原本的RepeatMasker的手动安装需要配置很多文件,还好我们有bioconda,我们利用bioconda进行RepeatMasker的依赖环境配置
conda create -p ~/opt/biosoft/RepeatMasker repeatmasker
经过我测试,bioconda安装的 RepeatMakser 存在一些问题,因此我们需要进行替换
wget http://www.repeatmasker.org/RepeatMasker-open-4-0-8.tar.gz
tar xf RepeatMasker-open-4-0-8.tar.gz
rm -rf ~/opt/biosoft/RepeatMasker/share/RepeatMasker/
mv RepeatMasker ~/opt/biosoft/RepeatMasker/share/
RepeatMasker自带了一些数据库,但是不包含RepBase
, 你需要在http://www.girinst.org注册才能下载。我下载的是RepBaseRepeatMaskerEdition-20181026.tar.gz
tar xf RepBaseRepeatMaskerEdition-20181026.tar.gz
cp Libraries/* ~/opt/biosoft/RepeatMasker/share/RepeatMasker/Libraries/
在RepeatMasker环境下配置运行环境
source activate repeatmasker
conda activate ~/opt/biosoft/RepeatMasker/
cd ~/opt/biosoft/RepeatMasker/share/RepeatMasker
perl ./configure
我随便用了一个基因组进行测试
~/opt/biosoft/RepeatMasker/share/RepeatMasker/RepeatMasker -e ncbi Athaliana.fa -dir .
结果表明能顺利运行。
RepeatMasker比较常用的参数如下
-
-e
: 搜索引擎,默认都选择ncbi -
-pa
: 并行计算,多线程 -
-s
,-q
,-qq
: 搜索速度,速度和敏感度成反比 -
-lib
: 自定义重复数据库 -
-species
: 指定物种,例如human, mouse, arabidopsis -
-gff
: 额外输出GFF文件
输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。