根据简书崔女神文章https://www.jianshu.com/p/071c1757ded1
利用hisat2来构建小麦的转录组的索引文件,服务器内存64G,构建的命令如下:
gunzip Triticum_aestivum.IWGSC.dna.toplevel.fa.gz #参考基因组来自于ensembl
gunzip Triticum_aestivum.IWGSC.44.gtf.gz#注释文件同样来自于ensembl
#解压.gz文件
source activate rna
#启动rna环境
hisat2_extract_exons.py Triticum_aestivum.IWGSC.44.gtf > exons_wheat.txt
hisat2_extract_splice_sites.py Triticum_aestivum.IWGSC.44.gtf >ss_wheat.txt
#利用hisat2提取外显子位置到exons_wheat.txt ,可变剪切位置到ss_wheat.txt
hisat2-build -p 8 --ss ss_wheat.txt --exon exons_wheat.txt Triticum_aestivum.IWGSC.dna.toplevel.fa IWGSC
#利用hisat-build构建小麦转录组比对的索引文件, -p 8为 8线程,--ss 可变剪切文件,--exon 外显子文件,后接参考基因组,index文件前缀为IWGSC
构建过程中提示提示内存不足,但是可自动优化参数,构建时间全长大约为3个小时。
构建成功后的文件有两种,分别是:.rf 和.ht2l,根据hisat说明,构建完成会生成6个ht2文件,但是对于文件较大的索引文件,后缀为:ht2l。
构建后的索引大小
IWGSC.1.ht2l 16M
IWGSC.2.ht2l 4B(你没有看错,是4B)
IWGSC.3.ht2l 12M
IWGSC.4.ht2l 3.4G
IWGSC.7.ht2l 25M
IWGSC.8.ht2l 3.7M
但是rf文件还不确定有何用,经研究和设置的线程数有关,8个线程即生成8个rf文件,20个线程即生成20个rf文件。
至此,小麦RNA-seq索引文件构建完毕,本人连续3次构建了小麦的index文件,文件大小略有不同,下一步测试比对index是否可用,同时测试run out of memory是否对索引文件构建的成功与否有影响,感谢崔老师。