由于之前利用repeatmasker自身的lib进行屏蔽时发现,lib里没有我研究的物种,要是不指定物种的话,repeat的鉴别率只有2.16%。所以自由自己建repeat数据库作为repeatmasker的输入。
一:利用MITE-Hunter识别mite序列(安装 NCBI BLAST,Muscle, mdust等)
下载mite-hunter并进行配置
perl MITE_Hunter_Installer.pl \
-d /opt/biosoft/MITE_Hunter/ \ #MITE_hunter解压缩后的文件夹路径
-f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路径
-b /opt/biosoft/blast-2.29/blastall \ #blastall的路径
-m /opt/biosoft/mdust/mdust \ # mdust的路径
-M /opt/biosoft/muscle/muscle #muscle的路径
运行程序:
nohup perl $/your path/MITE_Hunter/MITE_Hunter_manager.pl -i /your path/assembly.fasta -g nephila_mite -c 8 -n 5 -P 0.35 -S 12345678 &
输出文件:
MITE-Hunter的输出文件包括分组后的一致性TE序列及其对应多重联配文件。
最后合格的序列,或者直接将输出文件,Step8_*.fa” 和 “Step8_singlet.fa”候选的MITE序列,你可以将其命名为MITE.lib,用作后续的RepeatMasker输入.
cat *Step8.*fa *Step8_singlet.fa > laruinae_MITE.lib
二:利用LTR_harvest寻找LTR(其实叫DAWGPAWS)
下载地址:
https://excellmedia.dl.sourceforge.net/project/dawgpaws/dawgpaws/dawpaws-1.0/dawgpaws-1.0.tar.gz
安装运行:
nohup /your path/LTR_harvest/bin/gt suffixerator -db /your path/assembly.fasta -indexname laurinae -tis -suf -lcp -des -ssp -sds -dna &
nohup /your path/LTR_harvest/bin/gt ltrharvest -index laurinae -similar 90 -vic 10 -seed 20 -seqids yes -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 -motif TGCA -motifmis 1 > laurinae_harvest_scn &
三:利用LTR_finder寻找LTR
下载地址:
https://github.com/xzhub/LTR_Finder
配置运行:
nohup /your path/LTR_Finder/source/ltr_finder /your path/assembly.fasta > ltr.finder.scn &
四:利用LTR_retriever整合LTR_harvest与LTR_finder的结果
下载地址:
https://github.com/oushujun/LTR_retriever
配置运行:
nohup /your path/LTR_retriever/LTR_retriever -genome /you path/assembly.fasta -inharvest /your path/laurinae_harvest_scn -infinder /your path/ltr.finder.scn -threads 20 &
结果如下:(第二个为去冗余的结果)
五:将MITE-Hunter的结果与LTR_retriever的结果整合作为repeatmasker的输入
cat laurinae_MITE.lib laurinae_fasta_LTRlib.fa > MITE_LTR.lib
/your path/RepeatMasker -lib MITE_LTR.lib -dir . $REFERECE