一:安装依赖软件
- NCBI BLAST(是blast不是blast+哦)
下载地址: https://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.9/ 解压即可。 - Muscle(不会安就用conda)
下载地址:http://www.drive5.com/muscle/downloads.htm - mDust(不会安就conda)
下载地址: https://github.com/lh3/mdust
二: 安装MITE-Hunter
从http://target.iplantcollaborative.org/mite_hunter.html下载,进入解压后的文件夹中,运行如下安装命令进行配置:
$perl MITE_Hunter_Installer.pl \
-d /data1/spider/ytbiosoft/soft/MITE_Hunter/ \ #MITE_hunter解压缩后的文件夹路径
-f /data1/spider/ytbiosoft/soft/blast_2.2.9/formatdb \ # 上一步安装blast里面的formatdb的路径
-b /data1/spider/ytbiosoft/soft/blast_2.2.9/blastall \ #上一步安装blast里面的blastall的路径
-m /data1/spider/ytbiosoft/miniconda3/envs/python3/bin/mdust \ # 上一步安装mdust里面的mdust的路径
-M /data1/spider/ytbiosoft/miniconda3/envs/python3/bin/muscle #muscle的路径,安不上我用conda安的
运行指挥不报错就这样了:
运行脚本
MITE-Hunter只要求单个输入文件。
$perl MITE_Hunter_manager.pl -i genome.fasta -g 0.35 -n 5 -s 12345678 -p 1 &
参数说明:
核心的三个参数:
-i 输入的基因组序列
-P:使用多少比例的序列去搜索TE,对于700Mb以下的基因组用1. 参数可以设置为(1/(实际基因组大小/700))。也就是用700/实际基因组大小,单位是MB),例如人类基因组是3G, 那么就可以是0.25.
-g: 输出文件名的前缀
其他参数, 除了改改线程数以外,基本上都是无脑用作者的默认参数。
将这一步输出文件的"Step8.*fa"和"Step8_singlet.fa"进行合并,作为潜在MITE序列,命名为MITE.lib
``
$cat Step8.fa *Step8_singlet.fa > MITE.lib
MITE.lib作为后续的重复序列数据库。