使用 RepeatMasker + RepeatModeler 完成重复序列注释

一、使用RepeatMasker进行基因组重复序列注释

1、安装conda

2、预选安装依赖库包,安装RepeatMasker,下载Repbase并解压至~/RepeatMasker/Libraries目录下面,配置./configure,完成。设置环境变量PATH,或者绝对路径使用RepeatMasker。

3、直接使用RepeatMasker

./RepeatMasker/RepeatMasker -species capsella -pa 40 -gff -dir CbpRepeat1/ Cbp.LG.fasta

具体参数见RepeatMasker -h 或者参见RepeatMasker官方文档

输出关注:

xxx.fasta.masked 重复用N代替(屏蔽)---> 后续基因注释用 ***

xxx.fasta.out.gff 以gff2形式存放重复序列出现位置

xxx.fasta.tbl 该文件记录分类信息 *


二、使用RepeatModeler进行从头预测: 

相关网站 http://www.repeatmasker.org/RepeatModeler/ 官方安装指南

https://anaconda.org/ 可解决部分库包安装

相关问题解决办法网址:见CSDN、简书以及博客园的收藏夹

1、install Prerequisites

通过conda自动安装完成一般不需要提供PATH,如Perl、RECON、RepeatScout、trf、mafft等;

wget手动下载配置则需要在配置过程中添加路径,如rmblast、cd-hit、Ltr_retriever、NINJA等。

不同的环境下,conda能应付的prerequisite不尽相同!不能conda就手动wget!

2、perl ./configure 过程

遇到perl模块不够,可到anaconda.org上搜索perl-modules-name找到,如perl-json等

通过conda install perl-modules-name可自动安装完成。

通过CPAN手动安装问题太多!!!

UCSCTOOLS: /home/liuxin/UCSCTOOLS

rmblastn配置: /home/liuxin/rmblast-2.11.0/bin

LTR: /home/liuxin/LTR_retriever-2.9.0

NINJA: /home/liuxin/NINJA-0.98-cluster_only/NINJA

3、RepeatModeler配置环境变量

vi ~/.bashrc

export PATH="~/RepeatModeler-2.0.3:$PATH"

source ~/.bashrc

使用RepeatModeler:

第一步: 创建索引数据库

BuildDatabase -name capselladb xxx.fa

第二步: 运行从头预测

RepeatModeler -pa 4 -database capselladb -LTRStruct

输出关注: consensi.fa 自身比对找到的一致性序列

consensi.fa.classified 重复序列分类结果 --> 自定重复序列库 ***

consensi.fa.masked denovo屏蔽后序列,不常用

第三步: 引入自定的lib整合RepeatModeler+RepeatMasker得出综合结果

RepeatMasker -e ncbi -pa 40 -nolow -norna -lib consensi.fa.classified -dir xxx/ xxx.fa

例如: RepeatMasker -e ncbi -pa 40 -nolow -norna -lib /home/liuxin/RM_Results/RM_3828573.WedApr271359172022/consensi.fa.classified /home/liuxin/Cbp.LG.fasta

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容