植物基因组学取得了巨大进步,其特点是高通量技术的爆炸式增长,以低成本识别多维全基因组分子表型。更重要的是,基因组学不仅仅是获取分子表型,还利用强大的数据挖掘工具来预测和解释它们。
近年来,深度学习在这些任务中被发现非常有效。美国科学院院士Edward Buckler的综述强调了基因组学和深度学习交叉的两个突出问题:
- 1)如何模拟从基因组DNA序列到分子表型的信息流?
- 2)如何使用深度学习模型识别自然群体中的功能变异?
此外,还讨论了在合成生物学中发挥深度学习力量以创建具有所需功能的新型基因组元件的可能性,提出了深度学习在未来植物基因组学研究和作物遗传改良中的核心作用。
植物与地球上所有其他生命形式一样,可以被视为信息流。该信息流从基因组DNA序列开始,到最终观察到的表型或作物物种的农艺性状结束。介于两者之间的是通过转录和翻译传递信息,弗朗西斯·克里克(Francis Crick)在1957年将其总结为“分子生物学的中心法则”。中心法则中的每一步都可以被看作是遗传信息的传递,所涉及的分子特征统称为“分子表型”,以将它们与下游性状区分开来。更重要的是,在基因组学时代,信息中所涉及的多方面分子表型,包括DNA、RNA和蛋白质中元素的结构、修饰、功能和进化,以及它们的相互作用,开始以更低的成本大规模地揭示,促进了沿着中心法则对信息传递和转化的细粒度剖析。
了解这种信息流是基础研究和作物改良的关键,但如何做到这一点的问题仍然存在。在植物正向遗传学中,我们通常利用DNA水平的遗传变异(由人工诱变或自然变异产生)进行连锁或关联分析,以确定与特定表型变异相关或理想情况下与特定表型变异相关的基因组变异。然而,分子表型中的丰富信息在很大程度上尚未被探索,这使得从DNA序列到下游表型的端到端机制理解变得困难。
值得注意的是,这一差距现在正在被两个研究领域的进展所缩小。一种是将分子表型和下游表型联系起来的关联分析,例如全转录组关联研究(TWAS),与全基因组关联研究(GWAS)相比,它受益于更短的信息传递路径,并且涉及的信息转换步骤更少。另一个进展是通过深度学习模型从其上游分子表型或直接从基因组DNA序列中预测分子表型。本文综述了利用深度学习方法进行分子表型建模的最新进展,并提出了其在识别或优先排序对作物遗传改良有潜在价值的功能变异方面的应用。还讨论了在合成生物学中使用深度学习模型创建新的有益等位基因的可能性。我们认为,上述深度学习框架与高通量基因组编辑相结合,将对即将到来的“育种4.2”时代有所帮助,在这个时代,有益的变异被合理地组合并以前所未有的效率创建。
深度学习:概念、工具和注意事项
机器学习是一门对计算机进行编程的科学,因此它们可以从数据中学习。该领域的问题可分为两种主要类型:监督型和无监督型。监督学习的目的是获得一个模型,该模型将其预测因子(如DNA序列)映射到目标变量(如组蛋白标记)(图1a)。目标变量可以是分类变量(分类变量)或连续变量(回归变量)(图1 c)。监督学习应用的一些例子包括:预测玉米基因组中的调控区和非调控区、预测mRNA表达水平、水稻序列标记、植物胁迫表型分析、拟南芥的多聚腺苷酸化位点预测和预测番茄中的常量营养素缺乏。如果数据集中没有关于结果的规范,则问题将变得无监督。聚类和特征提取都属于这一组。
!图1 基因组学中深度学习的工作流程](https://upload-images.jianshu.io/upload_images/7698829-45dbac01defdcd5d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
将生物序列和分子表型分别作为预测因子和目标变量的深度学习工作流程通常包括四个步骤。
- (a)预测变量和目标变量的预处理:生物序列的检索和编码,分子表型的数值或分类表示,以及将预测变量-目标对适当地拆分为训练集、验证集和测试集,通常考虑生物序列之间的进化关系。
- (b) 模型构建和训练:选择模型架构和超参数以及训练集上的训练模型。值得注意的是,在训练期间应持续监控模型在验证集上的性能,以确定何时停止模型训练以避免欠拟合和过拟合。
- (c) 模型评估:评估训练模型在另一个数据集上的表现,称为测试集。用于衡量模型性能的指标取决于目标变量的性质:ROC 曲线下面积 (auROC) 是用于分类问题的指标,而 R 平方是用于回归问题的指标。
- (d) 通过显著性或特征归因方法解释模型,以识别生物序列中的功能要素。
人工神经网络 (ANN) 是解决机器学习问题的常用方法,自 1940 年代以来一直受到动物神经系统的启发进行研究。人工神经网络由一个输入、一个输出和几个隐藏层组成。深度神经网络 (DNN) 是 ANN 的一种,也是机器学习的一个相对年轻的分支。DNN 与 ANN 的区别在于具有更多的隐藏层。显然,随着 DNN 的预测能力增加,数据需求也会增加。与其他传统学习方法一样,需要首先提取 DNN 输入向量中的特征,并假设它们彼此独立。
DNN 的一个子集是卷积神经网络 (CNN)。CNN至少有一个卷积层,这使它们能够从连续信号(例如,天气数据作为时间序列、植物图像或DNA/RNA序列)中自动提取特征。可以使用具有 N 个碱基对的 DNA/RNA 序列来训练 CNN,并且该序列可以表示为一个热编码的 4 × N 矩阵(图 1 d)来训练模型。CNN 可以捕获局部基序,即使它们出现在输入的不同部分。此外,卷积层减少了与全连接层相关的权重学习数量。CNN在植物生物学中的应用有很多例子。Zou 等人提供了一个交互式教程来构建卷积神经网络以发现 DNA 结合基序。
递归神经网络 (RNN)(和卷积递归神经网络)是 DNN 的另一个子集。在 RNN 中,某些层的输出被反馈到前一层的输入中。此操作为 RNN 提供内存功能。 此外,RNN 可以处理不同大小的输入,当输入是时间序列时具有优势。文献中有许多例子将RNN应用于植物生物学。
当主要目的不仅是准确预测,而且是解释生物学规则时,机器学习模型的可解释性和量化特征重要性对植物生物学家来说变得至关重要(图1d)。例如,在从植物基因组准确预测表型的同时,科学家还想知道每个核苷酸的影响。虽然深度学习在预测方面提供了很高的准确性,但有时深度学习模型很难解释,这对于探索生物过程的推理至关重要。为了建立更可解释的模型,SHAP(SHapley Additive exPlanations)为每个特征分配一个特定预测的重要性值。DeepLIFT(深度学习重要功能)分解神经网络对特定输入的输出预测,以定义重要特征。出于类似的目的,集成梯度旨在将深度网络的预测归因于其输入特征。另一方面,编码生物特征的选择在可解释性方面也起着关键作用。最后,在运行模型或解释结果之前,考虑测量误差或数据集提交过程中出现的误差也很重要。
沿着分子生物学的中心法则进行深度学习
DNA和基因特性
深度学习已应用于大规模数据分析的多个领域,以解决基因组学、转录组学、蛋白质组学、代谢组学和系统生物学中的复杂生物学问题。几项研究表明,DNA形状在决定转录因子(TF)DNA结合特异性方面起着重要作用。有多种数据类型可供选择,包括染色质可及性检测(例如 MNase-seq、DNase-seq、FAIRE)和其他基因组检测(例如微阵列、RNA-seq 表达)。同样,对于转录因子 (TF) 结合,存在 ChIP-seq 数据、基因表达谱、DAP-seq(DNA 亲和纯化测序)和 ampDAP-seq,后者使用扩增和去甲基化的 DNA 作为底物和组蛋白修饰来了解基因表达的潜在机制。为了分析这些大规模数据集,开发了几种深度学习方法来模拟TF DNA结合特异性。而为了预测体内TF结合,也已经开发了几种基于深度学习的方法。例如,DeepBind 可以学习几个基序来预测 DNA 和 RNA 结合蛋白的结合位点。TFImpute 预测细胞特异性 TF 结合训练。在DeepSEA, DeFind和 DFIM中评估了功能性非编码变体的影响。为了区分DNA和RNA结合残基,开发了DRNApred。由于数据集易于获得,上述所有这些方法大多在人体组织或细胞系上进行训练和测试。在玉米等物种中,具有大量重复元件和广泛的基因间区域,确定关键的基因组调控区域具有挑战性。为了应对这些挑战,基于自然语言处理的 k-mer 语法等方法已被用于以经济高效且精确的方式注释玉米品系中的调控区域。机器学习方法在转录因子结合位点建模中发挥了重要作用。机器学习模型已被证明在植物生物学的几个方面都很强大。它们可以单独或联合使用各种类型的测序数据进行训练,还可以进一步整合其他信息,例如 DNase I 超敏反应数据,以更好地预测体内转录结合位点(TFBS)。
在比较 CNN 和 k-mer 方法时,CNN 在特征提取方面更有效。然而,CNN通常被认为是黑匣子,因为对其输出的解释具有挑战性,并且可能涉及高昂的计算成本。此外,它们的性能在多大程度上来自学习基本的生物学规则,如关键基序、基序关系和一般序列视角,这是相当不确定的。为了解释DNA,k-mer方法比CNN和RNN更可取。 使用k-mers(或k元组,k-gram)的频率对序列进行分类是快速、准确、无参考和无比对的。k-mer 是一种基于基因的方法来识别序列特征。通常,k-mer 频率矢量与距离函数配对,以测量任何一对序列之间的定量相似性。这些方法很容易解释,并且基于单词统计来恢复语义和句法线索,但是,确定为什么以某种方式对序列进行分类并不像更传统的基于对齐的方法那样简单。使用 k-mer 表示似乎是准确和快速分类的良好平衡。值得注意的是,也有将k-mer方法和深度学习模型相结合的例子,尽管这种方法对精度或可解释性的影响尚未得到系统评估。
蛋白质特性
任何蛋白质的功能都直接取决于其三级结构。蛋白质的三级结构可以通过综合分析各种蛋白质性质来揭示,例如二级结构、跨膜拓扑结构、信号肽、溶剂可及性、骨架二面体、无序有序转变、接触图、模型质量、残差间接触、蛋白质相互作用位点、蛋白质紊乱和酶动力学。为了从头肽序列中提取重要的氨基酸特征,使用CNN方法开发了DeepNovo。谷歌的AlphaFold利用人工智能的进步来预测蛋白质的三级结构,引起了极大的轰动。为了预测二级结构,在深度学习模型中使用了相对溶剂可及性和残基间接触图rawMSA。然而,深度学习算法在各个领域都取得了成功,但由于覆盖率低和数据噪声大,其对PPI预测的有效性相当低。在这种情况下,DPPI是一种能够从序列信息中预测PPI和同源二聚体相互作用的新模型。DEEPre是一种基于序列的酶EC数预测,通过深度学习来注释宏基因组学、工业生物技术和疾病中的酶功能。
模型和数据共享
尽管已经开发了大量的深度学习模型来解决人类或动物基因组学中的问题,但它们通常是在不同的框架中开发的,这些框架需要无数不同的依赖关系,这使得研究人员难以在新数据上测试已发表的模型或在新的集成或迁移学习任务中调整现有模型。遵循 FAIR(Findable, Accessible, Interoperatable, and Reuseable) 原则,最近开发了 Kipoi 存储库,以加速基因组学预测模型的社区交换和重用。Kipoi中为动物或人类基因组开发的大多数模型都可以很容易地使用植物基因组学数据集进行重新训练,甚至可以直接应用于植物(例如预测蛋白质生化特性的模型);然而,当正在研究的生物学问题涉及植物特定的问题时,必须小心。例如,在模拟玉米和高粱的相对基因表达水平时,玉米的四倍体可能会带来一些挑战。植物物种中基因的多倍体和广泛的串联复制也可能导致基因表达的偏倚定量,从而导致训练和测试数据集的质量降低。此外,由于基因组元件(如内含子、外显子或增强子和启动子之间的距离)在动物和植物物种之间的大小通常存在显着差异,因此在为植物物种重新训练动物模型之前,模型结构和超参数的重新优化可能至关重要。
除了模型zoos之外,还需要 CyVerse等数据库来容纳开发模型的组学数据。这将缓解基因组学中缺乏高质量大规模数据集的问题,并提供建立智能方法来融合异构数据集以进一步促进迁移学习的机会。
理解基因组变异:从关联到因果关系和分子机制
如上所述,深度学习模型可用于预测分子表型(如转录因子结合、表观遗传标记、染色质状态和基因表达水平),给定生物序列作为预测因子。深度学习模型最强大的部分是它们能够对新的、以前看不见的序列数据(即不在训练集中的数据)进行从头开始预测,这有几个重要的含义。
首先,尽管自然群体中存在大量遗传变异,但深度学习模型可以在其中的一小部分上进行训练,以预测所有其他变异(即整个突变空间)的影响。例如,在某些基因上训练的模型可用于对其他基因进行预测。这些不仅包括常见的等位基因,还包括低频和罕见的变异,无论其影响程度如何。由于控制密切相关物种中分子过程的生物学是保守的,因此在一个物种中训练的模型可以直接应用于密切相关的物种。或者,这些模型可以用作密切相关物种迁移学习任务的teacher模型,促进知识从经过充分研究的物种(如拟南芥)迁移到相关但特征不明确的物种(如十字花科的其他物种)。
其次,当一个重要位点内的几个变异(如某个性状的QTL)处于紧密连锁不平衡状态时(图2a),我们可以通过模拟突变将变异从一种单倍型一个一个地引入到另一种单倍型,然后分别评估它们对分子表型的影响,从而优先考虑因果变异(图2 b),这种连锁不平衡的破坏将是劳动密集型的,在湿实验室实验中难以扩大规模,而且在自然界中几乎是不可能的。
- (a) 在自然群体中,关联分析通常识别出与下游性状或分子表型相关的紧密连锁不平衡的变异,但仅靠关联分析很难识别因果变异以及每个变异背后的分子机制。为了单独评估变异在连锁不平衡中的影响,可以通过模拟突变将一种单倍型的变异一次引入另一种单倍型。
- (b)然后使用一组深度学习模型预测每个突变的影响,每个模型针对不同的分子表型。
- (c) 因此,基因组学中的深度学习提供了一个强大的工具,通过打破计算机中的连锁不平衡来确定因果变异(用黄色星号表示)的优先级,并识别每个假定的因果变异的潜在分子机制(用黑色星号表示)。
第三,通过丰富的深度学习模型库,每个模型都针对不同的分子表型,或同时针对多个分子表型的多任务学习模型,不仅可以预测QTL背后的因果变异,还可以预测其潜在的分子机制(图2 c)。综上所述,深度学习模型可以极大地推动我们对下游表型基因组变异的理解。
深度学习育种4.0:编辑育种
作物育种的一个重要组成部分是在环境适应和现代管理实践的背景下清除有害等位基因。过去30年(被概括为育种3.0时代),在标记辅助选择、关联分析和基因组预测方面取得了巨大胜利。
值得注意的是,育种3.0时代用于标记辅助育种的遗传变异并不一定是农艺性状的因果变异。当育种家有能力大规模预测因果有益和有害的变异时,他们能做什么?一个答案是通过基因组编辑来打破连锁拖拽:有益的等位基因可以通过编辑直接引入到优良种质中,而不是通过从另一个在连接位点携带有害等位基因的供体亲本回交。同样,有害等位基因可以通过编辑有效地从基因组中清除。事实上,模拟表明,通过使用基因组编辑将有益的变异引入基因组或去除有害等位基因,可以显著加速牲畜的育种。然而,由于作物物种的基因型和环境之间的相互作用比牲畜更突出,因此可以想象,等位基因效应(无论是有害的、有益的还是适应性的)的预测在作物物种中将更具挑战性。理想情况下,特定环境的模型或将环境因素作为附加输入的模型将缓解此问题。因此,可以合理地认为,深度学习模型预测的功能变异将是下一个育种时代的关键,即育种4.0,在这个时代,作物的遗传改良在很大程度上取决于基因组编辑。
更重要的是,在进行这种编辑育种方法时,我们并不局限于自然界中存在的已知有益变异。取而代之的是,我们完全可以根据深度学习模型对感兴趣的生物过程的“理解”来创建新的有益等位基因。例如,Rodriguez-Leal等人编辑了番茄CLAVATA3基因(SlCLV3)启动子,以增加果实大小并优化花序分枝。由于 SlCLV3 启动子缺乏功能注释,采用 CRISPR/Cas9 系统进行饱和启动子诱变,然后选择具有理想果实和花序性状的突变体。未来,通过深度学习模型预测启动子序列的基因表达水平,可以通过单核苷酸分辨率的显著性评分来识别SlCLV3启动子上的关键顺式元件,预测其对SlCLV3基因表达的功能丧失影响,进而实现模型引导的启动子编辑。
创建具有特定功能的新型基因组元件的另一种方法是在合成生物学中应用生成模型。例如,在学习现有启动子的突变空间后,可以训练模型以创建具有时空特异性的新启动子。然而,尽管变异自编码器和生成对抗网络等生成模型近年来引起了广泛关注,但它们在合成生物学中的潜在应用仍然相当有限。一个例子是应用GANs来生成编码抗菌肽的合成DNA序列。使用生成模型来创建新的DNA元件、基因,甚至是具有理想功能的调控通路,并将其应用于作物改良,将是很有希望的。
结论
在自然植物群体中,关联图谱已被成功用于揭示与分子表型或下游性状相关的遗传位点。然而,由于附近变异之间普遍存在连锁不平衡,表型变异背后的因果变异仍然难以确定,阻碍了通过基因组编辑对植物进行遗传改良。另一方面,近半个世纪以来,分子生物学的进步已经发现了许多控制信息从DNA流向分子表型(如RNA和蛋白质)的分子机制,并且最近基于先进测序技术的各种组学方法加速了这些数据的积累。因此,很自然地假设,通过结合能够“理解”从DNA到分子表型的信息流的模型,以及将分子表型与下游性状联系起来的关联映射研究,应该可以实现因果变异的优先级。事实上,这种框架不仅被证明可行,而且在人类遗传学中也很强大,可以揭示某些遗传疾病的变异(包括罕见的等位基因)。然而,这一趋势仍然没有被植物群体充分利用。深度学习模型发展的巨大进步是分子表型预测,以及这些模型连锁不平衡的模拟断裂功能变异发现中的应用。我们认为,这种框架是一种很有前途的方法,用于全基因组识别有害和适应性变异,这是未来农业中基于编辑的作物遗传改良的先决条件。
Wang H, Cimen E, Singh N, Buckler E. Deep learning for plant genomics and crop improvement. Curr Opin Plant Biol. 2020;54:34-41. doi:10.1016/j.pbi.2019.12.010。