现在组装新基因组,一般用pacbio的hifi测序模式进行olc组装+Hi-c辅助组装染色体就行了,但是我们实验室以前测了一些基因组是低覆盖度的pacbio的clr模式测序+50x以上二代,没有HI-C数据做的泛基因组,还是有需求对这一部分组装进行改进。
该软件结合了debreijn 图和 Overlap-Layout-Consensus的方法,3.2.1版本以来masurca可以混合二代、三代数据进行基因组组装。
(按我的理解,2代组装用了debreijn 图,组装成super reads.然后以3代为骨架进行map比对,比对上的super reads 用OLC进行组装)
对计算资源的要求是:
1 10Mb : 16Gb 内存,8 + 核,10Gb 磁盘空间 少于1小时
2 500Mb: 128Gb 内存,16个内核,1Tb 磁盘空间 1-2天
3 1Gb : 256Gb 内存,32 + 核,2Tb 磁盘空间 4-5天
4 3Gb: 512Gb 内存,32 + 核心,5Tb 磁盘空间 15-20天
5 30Gb : 1Tb 内存,64 + 核,10Tb + 磁盘空间 60-90天
所以各位自己看一下怎么搞。
安装
有人制作了bioconda的包,但是官方明确说明不能用bioconda安装……
1 安装numactl(必须要有,否则flye组装部分无法执行,然后程序弹出)
sudo apt-get install numactl
我搞了3-4天没组装成功,一直显示3代测序数据有问题,要我检查,但是也没查出毛病来,后面在某个论坛的旮旯里找到了一个回答,让安装这个,然后就没问题了。
2 下载boost最新版本,进行安装,
下载完了,解压,进入文件夹
sudo ./boostrap.sh
sudo ./b2 install
然后就安装完毕了
3 安装masurca
GitHub - alekseyzimin/masurca 下载最新安装包
解压,进入文件夹
sh ./install.sh 会自动安装依赖软件包
以上步骤就完成了全部的安装,反正我这里这样处理完就可以组装了
使用
这个软件进化到4.03版本的时候可以使用一条简单的命令行进行组装
a 没有三代测序
/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa
b 有三代测序
/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa -r /path_to/nanopore.fastq.gz
一般情况下还是使用安装文件夹里面内置的config文件进行配置
主要就是2代、3代测序文件的位置,预期基因组大小、能用多少个核。具体就不细说了,文档写的很详细。
配置文件写好以后,$/install _ path/MaSuRCA-X.X. x/bin/masurca config.txt用这个命令能够生成一个assemble.sh的文件,然后运行就可以了。
需要注意的是ubuntu内置的sh是dash,不能执行这个shell,必须要bash ./assemble.sh才行。
另外 flye组装步骤只支持最高128线程,但是前序步骤我这里160都没问题,可能可以支持更好,所以个人经验是config里第一次线程数写你的机器能用的最高线程,等跑到flye步骤出错后,再吧线程改为128以下,重新接着跑。