Assembly of whole-chromosome pseudomolecules for polyploid plant genomes using outbred mapping populations
利用远缘作图群体组装多倍体植物全染色体假分子
为多倍体和高杂合植物基因组提供一种新方法
Despite advances in sequencing technologies, assembly of complex plant genomes remains elusive due to polyploidy and high repeat content. Here we report PolyGembler for grouping and ordering contigs into pseudomolecules by genetic link- age analysis. Our approach also provides an accurate method with which to detect and fix assembly errors. Using simulated data, we demonstrate that our approach is of high accuracy and outperforms three existing state-of-the-art genetic mapping tools. Particularly, our approach is more robust to the presence of missing genotype data and genotyping errors. We used our method to construct pseudomolecules for allotetraploid lawn grass utilizing PacBio long reads in combination with restric- tion site-associated DNA sequencing, and for diploid Ipomoea trifida and autotetraploid potato utilizing contigs assembled from Illumina reads in combination with genotype data generated by single-nucleotide polymorphism arrays and genotyping by sequencing, respectively. We resolved 13 assembly errors for a published I. trifida genome assembly and anchored eight unplaced scaffolds in the published potato genome.
尽管测序技术取得了进步,但由于多倍体和高重复含量,复杂植物基因组的组装仍然难以捉摸。在这里,我们报告了通过遗传连锁分析将contigs分组和排序为假分子的多聚体.我们的方法也提供了一个准确的方法来检测和修复装配错误。利用模拟数据,我们证明我们的方法是高精度的,并优于现有的三种最先进的遗传作图工具。特别是,我们的方法对缺失基因型数据和基因型错误的存在更为稳健。我们利用我们的方法,利用PacBio long reads结合限制性位点相关的DNA测序,构建了异源四倍体草坪草的假分子,利用Illumina reads组装的contigs,结合单核苷酸多态性阵列产生的基因型数据和测序法进行基因分型,对二倍体甘薯和同源四倍体马铃薯进行分析。我们解决了一个已发表的三裂头马铃薯基因组组装的13个装配错误,并在已发表的马铃薯基因组中锚定了8个未定位的支架。
Introduction
高质量的基因组组装在植物基因组和遗传分析中起着至关重要的作用。尽管近年来第三代长读测序技术的发展显著提高了基因组组合的连续性,但由于多倍体和高重复性,仅利用序列数据构建完整的多倍体植物基因组是不可能的。长距离连锁信息,如物理图谱、遗传图谱、光学图谱、共线图谱syntenic maps 、染色质相互作用和Hi-C接触图谱,对构建完整的基因组组合至关重要。遗传图谱因提供染色体尺度连锁信息而被广泛采用。许多高质量的植物染色体水平基因组组装的构建涉及到遗传连锁图作为构建假分子的最后一步。这个想法很简单:构建一个与支架相关的遗传标记的遗传图谱,然后用这个图谱来锚定支架折叠来构建假分子。假分子的完整性很大程度上取决于遗传连锁图的密度。为了获得完整的染色体图谱,遗传标记应该覆盖尽可能多的基因组。然而,对于一个具有大量个体的作图群体来说,全基因组遗传标记的发现是非常重要的。提出了利用成本效益高的下一代测序技术进行高通量遗传标记发现的几种方法,如表达库的减少、限制位点相关DNA序列(radseq)和测序基因分型(GBS)。
基于NGS的高通量遗传标记发现方法(包括简化表示库、RAD-seq和GBS)产生的基因型数据通常规模较大,存在大量缺失值和基因分型错误。对这样的数据集进行遗传连锁分析是一个挑战。传统的遗传作图工具,如mamaker和R/qtl,已经针对相对较小但质量较高的标记集进行了优化。此外,这些工具是为自交系设计的。然而,自交系的发展是困难的、昂贵的和耗时的,尤其是多倍体。近年来,人们提出了几种方法,包括OneMap、JoinMap和Lep-MAP2,但仅限于二倍体。TetraploidMap 是第一个专门设计的基于显性和共显性标记信息的四倍体远缘种图谱工具。为了充分利用单核苷酸多态性(SNP)的剂量数据,该工具后来扩展到TetraploidSNPMap 中。polymapR是另一种利用SNP剂量数据进行远缘多倍体遗传定位的工具。由于设计的原因,这些方法本质上对缺失值和基因分型错误非常敏感,因此需要对输入的遗传标记进行严格的质量控制。对于全染色体假分子的构建,这可以显著降低遗传连锁图覆盖的基因组比例。
本文介绍了一种利用遗传作图技术构建多倍体全染色体假分子的新方法。这种方法依赖于一个高密度标记集在F1杂种群体和参考容器或支架上的可用性。我们首先在支架水平上对映射群体进行单倍型阶段化。然后根据阶段分析结果估计每对支架之间的遗传距离,并进一步进行链年龄分析,构建用于构建整染色体假分子的支架的遗传连锁图。该方法计算效率高,对大量缺失的基因型数据和基因分型错误具有鲁棒性,因此可以很好地处理基于NGS的高通量遗传标记发现方法生成的数据。利用模拟数据集,我们证明我们的方法比现有的遗传作图算法有了实质性的改进,并且能够为二倍体和四倍体基因组构建全染色体假性分子。我们将我们的方法应用于多个真实数据集的假性分子的构建,包括二倍体三叶草的GBS数据、同源四倍体马铃薯的SNP阵列数据和异源四倍体结缕草的RAD-seq数据。所合成的假分子与参考基因组具有很高的共线性。
Result
方法概述。 我们已经开发了一种称为PolyGembler(多倍体遗传连锁装配体)的新方法,用于通过遗传连锁分析来组装多倍体基因组。图1提供了PolyGembler的概述。该方法假设可获得用于基因分型的全基因组数据,例如在F1远缘家庭中收集的GBS、RAD-seq和阵列数据,以及在参考样本或一组参考样本或支架上高覆盖率(即大于30倍)的全基因组序列数据。首先,将定位群体的基因分型数据映射到参考支架以调用变体(图1a)。所得的基因型数据或等位基因深度数据用于推断每个支架的单倍型。单倍型被用来检测装配误差和计算每对支架之间的重组分数(RFs)(图1b-d)。接下来,将支架对之间的链接信息用于用于构建链接组的基于图的聚类算法(图1e)。理想情况下,每个连锁群中的支架都来自同一染色体。通过运行多维缩放(MDS)算法来确定每个连接组中支架的顺序,并通过解决精心设计的旅行商问题(TSP)来计算支架的方向,以最小化沿链接图的相邻RFs的总和(图1f)。最后,利用基于支架的遗传连锁图来构建假分子。
discussion
我们已经描述了一种遗传锚定方法,它利用来自绘图群体和参考基因组组装的基因型数据来构建染色体规模的假分子。在这个框架下已经提出了一些方法,如POPSEQ和RPGC。这些方法主要集中在集成已建立的读映射、变量调用和遗传映射工具,以构建组织容器或支架的计算管道。由于这些方法很大程度上依赖于传统的遗传映射算法,因此它们有一些局限性。首先,它们需要高质量的遗传标记,对基因分型错误和缺失数据缺乏鲁棒性。然而,从全基因组基因分型序列数据,特别是低覆盖率序列数据中,需要这样高质量的遗传标记的变体并不常见。其次,这些方法不能扩展到大型数据集。传统的遗传作图工具被设计用来处理多达几千个遗传标记的数据集,但不能扩展到使用当前全基因组基因分型方法生成的数十万个遗传标记。最后,这些方法很少用于多倍体基因组。为了解决这些问题,我们采用了分而治之的基因锚定策略。我们首先使用隐马尔可夫模型(HMM)在支架水平上进行单倍型分期。然后根据单倍型估计每对支架之间的遗传距离,并进一步用于进行支架水平的连锁分析。最后,将支架的遗传连锁图谱转化为全染色体假分子。脚手架级连接分析有效地降低了计算复杂度。由于这是一个非确定性的多项式硬问题,可能需要一个设计良好的启发式算法来对每个连锁群中的标记进行排序。然而,在我们的方法中,问题的规模大大减小,这使得我们能够将MDS算法与精确TSP解算器CONCORDE相结合,高效、准确地排序标记。支架水平的设计也使我们能够以高度并行的方式进行单倍型分期。在本研究中,该方法用于处理多达3348个支架的数据集。此外,单倍型分期所需的计算时间和资源与遗传标记的数量几乎呈线性关系,并且该方法可以轻松处理多达10000个遗传标记的支架(扩展数据图7)。这种高可扩展性使得该方法可以应用于其他更广泛的基因分型技术,如全基因组或转录组重测序方法,这些方法可能有数百万个遗传标记。该方法可直接推广到高倍体基因组。本研究以二倍体和四倍体为研究对象。然而,这种方法可以构建高倍体基因组的遗传连锁图。在处理高倍性物种时,我们最大的挑战是计算,特别是在单倍型阶段化步骤。对于六倍体,隐马尔可夫模型的隐藏状态数增加到14400个。这是大量的状态,但在计算上仍然是可处理的。然而,对于更高水平的倍性,计算变得困难。
单倍型定相的基本思想是用一条沿着染色体的第一个遗传标记开始,最后一个遗传标记结束的马尔可夫链来模拟父母配子形成的过程。在PolyHap和TetraOrigin中使用了类似的模型。 PolyHap假定目标群体共享给定数量的祖先单倍型。允许在任何祖先单倍型之间进行重组,随着祖先单倍型和倍性的增加,导致难以解决的大状态空间。 TetraOrigin的状态空间和我们的方法几乎相同,除了TetraOrigin还考虑了双归约。在我们的方法中未考虑双重还原,主要是因为准确鉴定它们需要高质量的基因分型数据。 TetraOrigin使用SNP阵列数据检测了两次还原。但是,对于低覆盖率的GBS或RAD-seq数据,很难在不滤除可观标记的情况下获得如此高质量的基因型,如果我们要覆盖整个基因组,这是不希望的。即使双倍减少会在RF估计中引入一些偏差,但是如果四价配对很少见,则可以安全地忽略它。为了组织组装支架,可以忽略不计。
我们已经证明了我们的方法在构建基因组组装的全染色体假分子方面的能力。在真实的数据集中,伪分子的基因组覆盖率从二倍体的45%到异源四倍体的92%。产生这种巨大差异的原因是输入基因组的质量,尤其是相邻性。输入基因组组合的支架N50统计值分别约为43kb和2.6mb。尽管生成高质量的植物基因组组合仍然具有挑战性,但测序技术和相关计算工具的最新进展有助于构建高度相邻的基因组组合,即使对于非常复杂的植物基因组也是如此。在基因组组装技术迅速发展的背景下,我们希望我们的方法能够成为完成基因组组装的一种选择。
文章中主要使用了有遗传群体的物种进行分析,但对于难于构建遗传群体的多年生植物和一些种系复杂的自然群体是否有效还有待考证。
前三种遗传作图工具:OneMap, Lep-MAP2 and tetraploidSNPMap
outbred mapping populations
allotetraploid:异源四倍体
GBS:测序基因分型
RADseq:限制性位点相关DNA测序