使用conda安装HiTE
# Find the **yml** file in the project directory and run
cd HiTE
conda env create --name HiTE -f environment.yml
conda activate HiTE
# run HiTE
python main.py \
--genome ${genome} \
--thread ${thread} \
--outdir ${output_dir} \
[other parameters]
# e.g., my command: python main.py
# --genome /home/hukang/HiTE/demo/genome.fa
# --thread 40
# --outdir /home/hukang/HiTE/demo/test/
我本来打算安装好之后使用conda-pack迁移到服务器使用,运行之后发现有部分依赖并不能被conda-pack迁移,比如LTR识别,以及他们的依赖包,需要迁移之后继续安装ltr_retriever 等几个包,不然会在ltr识别步骤停止无法继续。
这个包依赖很麻烦,还是建议使用容器运行。
安装之后运行,我使用的是本地pc,16线程 5800h,400m植物基因组运行约6h,总共运行了两次,第二次运行时把第一次运行产生的TE库作为输入lib运行。
python main.py --genome 0712.3 90m.last.chr.fasta --thread 16 --outdir HiTE.out
python main.py --genome 0712.390m.last.chr.fasta --outdir 003.genome.anno/HiTE.out/0902 --curated_lib 003.genome.anno/HiTE.out/TE_merge_tmp.fa.cla ssified --annotate 1 --thread 16
结果文件如下
HiTE.gff confident_helitron.fa confident_tir.fa genome.rename.fa.pass.list
HiTE.out confident_helitron_0.fa confident_tir_0.fa genome.rename.fa.retriever.all.scn
HiTE.tbl confident_ltr_cut.fa genome.rename.fa genome_all.fa.rawLTR.scn
TE_merge_tmp.fa.classified confident_non_ltr.fa genome.rename.fa.LTRlib.fa longest_repeats_0.fa
chr_name.map confident_non_ltr_0.fa genome.rename.fa.finder.combine.scn longest_repeats_0.flanked.fa
confident_TE.cons.fa confident_other.fa genome.rename.fa.harvest.combine.scn
打开HiTE.tbl查看结果,发现重复序列的总数与预期相比很低,原本预期40%,但是统计只有22%,可能是库选择有问题。准备把HiTE,EDTA,repeatmodeler的库合并跑TEsorter,新建库之后再跑repeatmasker和HiTE。