入门必看—轻松掌握Contig Binning分析

境或人体微生物中广泛存在着菌株水平的差异,这些菌株个体水平的基因差异决定了其功能执行上的显著不同。宏基因组测序是对人体或自然环境样品进行菌株水平研究的唯一途径[1]。而环境样品惊人的复杂性为菌株重建带来了极大的挑战,各种新的实验方法、测序策略和技术工具应运而生,基于宏基因组进行种水平乃至菌株水平研究的分析方法也日渐完善[2]。

Binning的含义是分箱、聚类,指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。根据基于聚类的序列类型的不同,分为reads binning,contig binning 和 genes binning。近年来高分文章(表1)中多使用Contig Binning,即将组成相似或丰度一致的Contigs聚类到同一物种从而完成单菌的草图组装,进一步解析菌株的功能特性。

表1 近年来 Contig Binning 高分文献

1.Contig Binning原理

利用核酸组成信息(Nucleotide composition)进行binning:来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(通常是四核苷酸频率),GC含量和必需的单拷贝基因等。

利用基因丰度(Nucleotide abundance变化:研究发现来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式。

同时利用核酸组成信息及基因丰度变化:即核酸组成与丰度(NCA-Nucleotide composition and abundance)。NCA策略,既能保证binning效果,也能相对节约计算资源,因此目前主流软件多为NCA算法[3]。

2.常用的Contig Binning软件

下图[3]对常见的一些NCA-based contig binning软件进行了比较。其中MetaBAT[4]是历史引用量最高,且2019年又推出了MetaBAT2[5]。下面利用真实宏基因组数据对使用较为广泛的MaxBin[6],CONCOCT[7],及MetaBAT2软件进行测试比较。

基于相同的contigs进行binning,三个软件资源消耗分别如下表2,CONCOCT软件binning速度快,MetaBAT2相对来说消耗时间较长。

表2 不同软件资源消耗比较

基于15个样本,统计各软件binning结果。并利用 CheckM[13]软件来评估 binning 的质量,综合考虑 binners 的完整度,污染度及大小等方面。表3基于 CheckM 对各软件 binning 结果评估,并统计污染度<10%时,完整度>95%,>70%,>50%的 binners 的个数。发现MetaBAT2 获得的 binners 结果较好。

表3 基于 CheckM 对各软件的 binning 结果进行评估

综上,CONCOCT软件binning速度快,并且得到的binner结果也相对较好,MetaBAT2相对来说消耗时间略长,但得到的binning结果最好。但是由于环境中物种多样性十分丰富,使用一个软件binning可能会丢掉一些物种,如果时间及资源允许,我们可以使用多个软件进行binning,得到结果之后利用ANI>95%(ANI被定义为两个微生物基因组同源片段之间平均的碱基相似度,在近缘物种之间有较高的区分度)去重复。

3.Binning结果优化

得到高质量的 binners 之后,还可将其进行优化,通常的方法是将样本的高质量reads 比对回各 binners,再通过 SOAPdenovo[8],Spades [9]等软件重新组装。但是如果环境的复杂度很高,mapping得到的reads可能并不都来源于同一个物种,这种情况会严重影响重新组装的效果,可能重新组装后得到的结果比之前更差。另外,mapping及重新组装消耗时间、内存、存储等资源很大。

因此,我们尝试通过三代meta对二代 contig binning 结果进行优化,其过程是利用基因组延伸软件(sspace[10]、pScarf[11]、OPERA-LG[12]等)和三代 reads 对二代 binning 结果进行延伸。延伸后的 binners(表4)在包含序列数,N50,组装总长度,最长 scaftigs 都有明显提升。

表4 延伸后 binners 参数指标

以N50为例,延伸前后N50长度如下图所示,可以看到延伸后N50长度得到明显提升。

4.高质量Binners分析

最终得到高质量的Binners即MAG(metagenome assembled genomes)之后,既可以基于单个MAG进行单菌基因组草图分析,也可以统计MAG丰度进行分组或样本层面的分析。

Contig Binning是研究微生物群落结构及功能的新方法,利用三代宏基因组数据优化,不仅能提升物种组装完整度,同时还能提升物种注释的准确度,挖掘更多的低丰度物种。

参考文献:

[1] Marx V, Microbiology: the road to strain-level identification[J]. Nature methods, 2016. 13(5): p. 401-404.

[2] Donati C, et al., Uncovering oral Neisseria tropism and persistence using metagenomic sequencing[J]. Nature microbiology, 2016. 1: p. 16070.

[3] Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.

[4] Kang, Dongwan D, Froula, et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities[J]. United States: N. p., 2015. doi:10.7717/peerj.1165.

[5] Kang DD, Li F, Kirton E, Thomas A, Egan R, An H, Wang Z. MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies[J]. PeerJ. 2019 Jul 26;7:e7359.

[6] Wu Y W, Tang Y H, Tringe S G, et al. MaxBin: an automated binning method to recover individual genomes from metagenomes using an expectation-maximization algorithm[J]. Microbiome, 2014, 2.

[7] Johannes Alneberg, Brynjar Smári Bjarnason, Ino de Bruijn, et al. Binning metagenomic contigs by coverage and composition[J]. Nature Methods, 2014, doi: 10.1038/nmeth.3103.

[8] Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012 ,1(1):18. doi: 10.1186/2047-217X-1-18. 

[9] Bankevich A, Nurk S, Antipov D, et al.. SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing[J]. Journal of Computational Biology, 2012.

[10] Boetzer M, Pirovano W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information[J]. BMC Bioinformatics, 2014, 15, 211.

[11] Cao MD, Nguyen HS, et al. Scaffolding and Completing Genome Assemblies in Real-time with Nanopore Sequencing[J]. Nature Communications, 2017, Article number: 14515. doi:[10.1038/ncomms14515].

[12] Gao S, Bertrand D, Chia BKH, et al. OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees[J]. Genome Biology, 2016, 17, 102.

[13] Parks DH, Imelfort M, Skennerton CT, et al.. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes[J]. Genome Research, 2015, 25(7):1043-55. doi: 10.1101/gr.186072.114. 

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 226,913评论 6 527
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,710评论 3 412
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 174,561评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,278评论 1 306
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,080评论 6 405
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,604评论 1 320
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,698评论 3 434
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,847评论 0 285
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,361评论 1 329
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,330评论 3 353
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,487评论 1 365
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,044评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,738评论 3 342
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,134评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,378评论 1 281
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,053评论 3 385
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,471评论 2 370

推荐阅读更多精彩内容