植物线粒体DNA的另一种现实:一个环不能代表所有
摘要
植物线粒体基因组通常组装和展示成一个环形的图谱,这是广大生命科学家普遍的观点,即圆形基因组分子是植物线粒体DNA的主要形式,尽管植物线粒体研究人员认为这是一个不准确和过时的概念。许多植物线粒体基因组有一对或多对大重复序列,可以作为分子间或分子内重组的位点,这导致多种替代排列(亚型)的存在。大多数线粒体基因组使用的组装方法无法获得物种内完整亚型图谱,这导致对其结构和重组事件不能完整推断。为了记录和研究植物线粒体DNA结构多样性的潜在原因,我们使用长读长(PacBio)和短读长(Illumina)测序数据进行组装和比较了驯化型(Lactuca sativa)和野生型(L. saligna和L. serriola)莴苣的线粒体基因组。我们对每个物种进行全面的、复杂的亚型的图谱鉴定,并比较了物种之间的基因组结构。通过荧光显微镜对L. sativa mtDNA分子进行物理分析,发现了多种线性、分枝和圆形结构。L. sativa和L. serriola的线粒体基因组序列和排列完全相同,与L. saligna的线粒体基因组结构基本相同,说明驯化过程中L. sativa和L. serriola的线粒体基因组结构基本相同。从我们的异构体中数据中,我们推断重组发生在各种大小、不同频率的重复中。L. saligna与其他两种Lactuca物种基因组结构的差异,大程度可以解释为罕见的重组事件,导致基因结构重新排列。我们的数据表明,将植物线粒体基因组表示为简单的环状分子并不能准确描述它们的真实性质,而实际上,植物线粒体DNA是一种复杂的、动态的形态混合物。
背景
与动物相对简单的线粒体基因组不同,非寄生开花植物线粒体基因组庞大而复杂。它们大小在[191 kb - 11,319 kb]、序列排列和重复内容上表现出广泛的差异,但编码序列高度保守(通常是24个核心基因和17个可变基因)。在植物中,线粒体不仅在呼吸、代谢和程序性细胞死亡中发挥重要作用(类似于动物线粒体),但也能导致雄性不育。它们的进化演变一直是众多研究的主题。
因为它们通常可以被组装和绘制成环形,所以有一个普遍的误解,即植物线粒体基因组在体内是环形分子(主环形模型)。环状分子之前一直是普遍的共识,直到缺乏强有力的证据证明植物线粒体是环状分子,并且越来越多的证据证明植物线粒体非环形形式的存在,这导致了该领域专家理念的转变,过渡到一个更准确的理念,即植物线粒体DNA主要是动态的集合形式,而非环形。这些形态会在发育过程中发生变化,并对压力做出反应,比如长时间暴露在低温下。然而,在植物线粒体研究领域之外的大多数生物学家仍然持有过时的“主环”观点。这可能是因为许多当代出版物中线粒体基因组仍然坚持呈现一个“主环”,往往没有提到任何其他形式,这也是目前大多数生物学教科书中呈现的。此外,植物线粒体基因组的复制和重组机制尚不完全清楚,与动物线粒体基因组不同这些变异也不是适应环境造成。植物线粒体基因组结构的准确描述是了解其功能、复制、遗传及其独特的进化轨迹所必需的。
DNA测序和姐妹类群之间的比较表明,植物线粒体同义突变率大大低于动物线粒体或植物细胞核。相比之下,一旦对整个基因组测序,就会清楚地发现,虽然有基因内容的保守性,但即使在近亲之间,基因顺序也几乎没有保守性,这可能是由于同源重组和非同源端连接时发生频繁的DNA修复。植物线粒体基因组中有相当一部分是功能未知的保守性差的DNA,有些基因组的大小已经大幅增加到数百万个核苷酸,而编码的基因仍然只有几十个。和主环模型相反的是,植物线粒体DNA展现出复杂的、动态的结构,包括线性和分枝分子(可能是重复和重组的中间产物),这些代表基因组的多种构型。
植物线粒体基因组通常有少量长度为数kb的非串联直接重复序列或反向重复序列。这些可能频繁和对称地重组,使基因组异构化。一些基因组组装成一个以上的独立分子,尽管这也可能是组装过程中使用的组装方法和参数差异造成的结果。在许多情况下,特别是那些仅仅通过短读测序组装的序列,重组和异构化被简单地假设或忽略了。在野生型植物中,也有多达几百个碱基对的分散重复序列,它们的重组频率相对较低,但在DNA维护和修复突变体中,它们的重组往往更频繁(且不对称)。这种重复并不总是被注释,但它们对线粒体基因组的重排和进化的重要贡献正开始显现。
我们采用新技术,通过确定Lactuca属中三个密切相关物种的完整线粒体基因组序列,来解决通过分枝和重排组装基因组的挑战。在基因含量、总体大小和重复内容方面,这些基因组是许多开花植物线粒体基因组的典型特征。我们使用长读长、高覆盖、短读长数据鉴别序列的链接、重组、重复定量,从而生成了第一个菊科物种包含结构和亚型详细信息的高质量线粒体组装。这使得我们可以通过在大重复序列上重组来评估重复序列的结构和频繁的异构化。我们对在Lactuca谱系中分化中发生的罕见的重组事件提出一个模型。荧光显微镜观察到的基因组物理结构表明,L. sativa植物线粒体DNA主要以分枝、线状和亚基因组大小的圆形形式存在。我们的数据使我们能够详细地记录同源异构体的多样性,澄清对植物线粒体DNA结构的误解,探索组装这些动态、复杂基因组的最佳方法,并检查野生和驯化线粒体基因组的进化。