使用conda安装了Repeatmodeler,版本为Version 2.0.5。
在基因组重复序列注释过程中运行时间 过长,而且最终产生的文件中只有families.stk ,缺失了-families.fa,除此以外有一个额外的文件consensi.fa。
ls #这是重新运行后的文件夹
consensi.fa consensi.fa.backup_1 families.stk rmod.log round-1 round-2 round-3 round-4 round-5 round-5.backup_1
处理1 指定当前文件夹,继续运行Repeatmodeler
RepeatModeler -database db.fa -LTRStruct -threads 32 -recoverDir RM_65335.WedJul172054472024
重新运行,耗时2天仍未结束。
处理2 使用github issue中提到的解决方式,见 https://github.com/Dfam-consortium/RepeatModeler/issues/9
RepeatClassifier -consensi consensi.fa -stockholm families.stk
按照本处理方式,得到了consensi.fa.classified和families-classified.stk两个文件,按照RepeatMasker 的使用教程,可以将consensi.fa.classified作为重复序列库运行。
RepeatMasker -lib ../Libraries/consensi.fa.classified -pa 8 ../00.last.fasta.db/my.fasta
#运行过程如下
Checking for E. coli insertion elements
identifying Simple Repeats in batch 744 of 6911
identifying matches to consensi.fa.classified sequences in batch 744 of 6911
identifying Simple Repeats in batch 743 of 6911
identifying Simple Repeats in batch 739 of 6911