写在前面
最近在利用小麦的重测序数据进行mapping,小麦是一个很奇特的物种,六倍体,有ABD三个基因组,基因组大小约为17Gb,因此,制约小麦重测序数据分析的一个很大的问题就是需要消耗大量的时间,进行index以及mapping。然后bwa最近进行了升级,升级为了bwa-mem2,因此我测试一下运行速度,非常快,但是也存在一些问题!
首先是bwa2的安装,貌似现在不能使用conda安装,官网给了详细的介绍,我捡重点的给大家看一下
重点内容
两种安装方法
#第一种
curl -L https://github.com/bwa-mem2/bwa-mem2/releases/download/v2.0pre2/bwa-mem2-2.0pre2_x64-linux.tar.bz2 \ | tar jxf -
#第二种
git clone https://github.com/bwa-mem2/bwa-mem2
cd bwa-mem2
make
. /bwa-mem2
对参考基因组建立索引
一共生成了7个文件,其中最大的是190G,
之后使用bwa-mem2测试了一下数据
#bwa比对命令
bwa mem -t 4 -R '@RG\tID:SRR7478247\tPL:Illumina\tSM:SRR7478251' ~/bwa-v1-index/161010_Chinese_Spring_v1.0 SRR7478251.1.fastp.fq SRR7478251.2.fastp.fq > SRR7478251.sam &
#bwa-mem2比对命令
nohup bwa-mem2 mem -R '@RG\tID:SRR7478258\tPL:illumina\tSM:SRR7478251' ~/bwa2-v1-index/161010_Chinese_Spring_v1.0_pseudomolecules.fasta SRR7478251.1.fastp.fq SRR7478251.2.fastp.fq > SRR7478251.sam
运行速度第二个很快,大约8个小时的时间,bwa-mem2可以得到50G的比对结果,而bwa的结果是5.7Gb,真的是超级快了.
但是也存在一些问题,那就是在投任务的时候,bwa-mem2的第二个任务被kill了,看了一下报错结果,显示segmentation fault。但是使用bwa就不存在这个问题,个人更倾向于该版本的问题,但是还没有很好的解决方法。