quickmerge是一个用来去除基因组组装中的重复的软件。
该软件没有单独的文章,是作为某个基因组组装中的衍生脚本。该基因组文章是
Improved Genome Assembly and Annotation of the Soybean Aphid (Aphis glycines Matsumura)
具体而言,基因组组装时候,第一步是组装contig,可以有多种方案,如纯ont组装,纯ccs组装,纯clr组装,以及二代三代masucra或者wenga混合组装等,还可以用同一套数据用不同的软件进行组装,如flye、mecat2、canu等。这样一个基因组就可以有多个组装版本的contig,可以将这些不同版本进行比较,去重,此时就可以用到quickmerge软件。
安装很简单 ,conda就可以安装,如:
conda install -c conda-forge -c bioconda quickmerge
但是这里有个大坑:conda里面安装的这个版本不能使用多线程的mummer4,虽然也显示是V0.3版,但是和github上面真正的V0.3是不一样的,我花了半个小时没弄明白为啥不能按官方方法使用,最后看了源代码才发现不一样。conda的V0.3版本只能使用mummer3比对,mummer3是个单线程的,慢的要死。
所以更好的办法是
然后进入/quickmerge-master/文件夹,执行
bash make_merger.sh
然后将该文件夹加入path
最后安装mummer4
conda install mummer4
到此安装结束:
使用方法:
简单版本的:
merge_wrapper.py -p (前缀) -v -t (线程数) -l (切掉的contig长度) contig1.fasta contig2.fasta
详细参数可以看-h
注意 如果要使用多线程mummer4比对,必须有-v -t 参数,否则就是默认调用mummer3进行单线程比对,我自己试用了,24小时没结果,然后就放弃了,改多线程只要几十分钟。
在这个比对过程之中,前面的contig1为query,后面的conig2为reference,按照官方说法,可以先用quast对所有组装进行评估,然后连续性较好的作为reference,另一个做query。
另外软件作者说,合并完成后,可以用FinisherSC软件再进一步延长,完事再polish,而且必须再polish。
对了合并之前的所有contig也需要polish。