Nature | AI工具Eve预测基因变的与3219种疾病的相关性
原创 图灵基因 图灵基因 今天
收录于话题#前沿分子生物学技术
了解人类基因组中丰富的基因变异对疾病的影响有可能会改变医疗保健,但尽管我们可能知道一些特定基因突变的后果,但我们解释通过基因组测序确定的数百万基因变异含义的能力仍然是一个挑战。
哈佛医学院和牛津大学的研究人员现在开发了一种称为EVE(变异效应的进化模型)的人工智能(AI)工具,它使用一种复杂的机器学习来检测数十万非人类物种的遗传变异模式,然后用它们来预测人类基因变异的意义。
在《Nature》杂志上发表的一项研究中,研究小组利用EVE评估了多个物种的3600万个蛋白质序列和3219个疾病相关基因。他们的研究结果表明,事实上,256000个先前确定的、目前意义未知的人类基因变异应该重新归类为良性或致病性。虽然研究人员强调EVE不是一种诊断测试,但他们表示EVE可以增强遗传学家和其他内科医生目前用于诊断、预测疾病进展、甚至根据某些致病基因突变的存在选择治疗的临床工具。“越来越多的人可以对其基因组进行测序,但理解数据并不总是那么简单。”该研究的资深作者、HMS Blavatnik研究所系统生物学副教授Debora Marks博士说,“关于它对疾病或疾病进展的可能性意味着什么的信息非常少……我们相信我们的方法可以作为当前临床评估的补充工具,并提供一种强大的新方法来减少不确定性和明确决策,特别是在临床环境中。”
Marks与牛津大学的同事Yarin Gal博士,共同第一作者Jonathan Frazer博士,哈佛医学院的Mafalda Dias博士,以及牛津大学的Pascal Notin共同领导了这项报告的研究。在题为“Disease variant prediction with deep generative models of evolutionary data”的科学家们的报告中,他们总结道,“我们的工作表明,进化信息模型可以为变异解释提供有价值的独立证据,这将在研究和临床环境中大有裨益。”
没有两个人是完全相同的,这是编码在每个人DNA独特排列中的生物奇点。但尽管这种基因变异是推动多样性的生物学基本特征,是进化的引擎,但它也有阴暗的一面。
DNA序列和由此产生的构建细胞的蛋白质的改变有时会导致生理功能的严重破坏并导致疾病。但了解哪些变异对疾病产生影响是一个巨大的挑战,将人类基因组中的特定变化与疾病联系起来仍然困扰着临床遗传学领域,因为人类群体中变异的数量使科学家能够调查的数量相形见绌。
尽管只对一小部分人进行了测序,但研究人员已经发现了数百万个意义尚不清楚的变异。在这些变异中,只有2%被归类为良性、中性或致病性。其余98%的已鉴定基因变异目前被认为具有“未知的意义”。“人类基因组测序的指数级增长突显了人类群体中的大量基因变异……量化人类疾病相关基因中蛋白质变异的致病性将对临床决策产生显著影响,但这些变异中的绝大多数(超过98%)仍然有未知的后果……将基因组中的特定变化与疾病表型联系起来仍然是一个公开的挑战,因为人类群体中的变异数量超过了我们能够调查的数量。”
准确解释基因变异意义的风险是巨大的。将良性变异解读为致病因素可能会导致错误诊断,从而引发一系列进一步的检测和可能不必要的医疗干预。相反,当观察、进一步检测或预防措施可能被强制执行时,将促进疾病的DNA变异误解为良性可能会提供错误的保证。
研究小组指出,在人类基因组中,仅蛋白质编码区域就包含了人与人之间的巨大差异,迄今为止,已观察到650万个错义变异。这些所谓的错义突变可能对蛋白质的功能没有影响,或者可能引起蛋白质功能失调,导致疾病。事实上,研究人员估计,除了居住在地球上的80亿人的基因组中致命的蛋白质位置外,每个蛋白质位置都可能存在变异。
研究人员说:“在很多方面,一个人不仅仅拥有一个基因组。一个基因的一个拷贝上可能有不同的变体,随着年龄的增长,会发生各种各样的体细胞变异——不仅与癌症的发展有关,而且与神经退行性变有关,这两者都是由突变驱动的与年龄相关的过程。”
研究人员已经确定了许多与疾病相关的基因,这些基因的突变具有临床疾病的高风险。其中包括用于乳腺癌和卵巢癌的BRCA1和BRCA2,以及用于一系列癌症的肿瘤抑制基因p53。但即使是这些基因也显示出其他未经研究的突变,其意义尚不清楚。研究人员说,所有这些都迫切需要澄清人类基因变异的重要性,在这个过程中,计算将在提供答案方面发挥越来越重要的作用。
神经网络的一个决定性特征是,它们能够在新数据可用时不断重新评估和更新假设的概率。这意味着神经网络可以使用新的知识重新评估证据,因此可以检测传统方法遗漏的模式和意义。
在当前的研究中,研究人员使用了一种称为无监督机器学习(unsupervised machine learning)的复杂分析方法,这是一种人工智能形式,它不基于预定义的参数和规则,而是涉及自适应学习。这意味着,当呈现新数据时,机器学习算法将随着时间的推移更好地识别模式。相比之下,在有监督的机器学习中,算法学习从预先标记的数据中检测模式——它的训练是有监督的。
在信息学家给出的一个经典示例中,该算法使用猫和狗的图像,并在识别未标记的猫和狗图像之前告知哪些是哪些图像。在无监督机器学习中,该算法被给出一组猫和狗的图像,而不告诉它们哪个是哪个。它必须自己识别模式。研究人员进一步指出:“因为算法不需要事先知道哪些图像是猫,哪些图像是狗,它只需要一组猫和狗的图像,所以无法使用它不应该知道的信息。”
两种类型的机器学习都为特定任务提供了优势。无监督模型的一个优点是,通过向他们提供预先标记的数据,不可能使他们的学习产生偏差。此外,它们还可以随着数据的变化进行调整,以执行更复杂的分析。研究人员说,目前大多数用于评估基因变异重要性的计算方法都采用基于临床标签的监督训练,这可能会使这些工具产生偏差,并导致现实世界中预测的准确性过高。“原则上,计算方法可以支持对遗传变异的大规模解释。然而,最先进的方法依赖于对已知疾病标签的机器学习模型进行训练。由于这些标签稀疏、有偏见且质量参差不齐,因此产生的模型被认为不够可靠。”
正是无监督机器学习从以前从未遇到过的数据中检测新模式的能力,使得这种方法特别适合于分析非人类的基因序列。多年来,科学家们一直使用比较遗传学来检测DNA或蛋白质序列中的相似区域,从而得出其意义。哈佛-牛津大学的研究小组使用神经网络在更大范围内实现了这一目标。
在他们报告的研究中,研究人员重新审视了这个概念,即通过研究多个物种的遗传变异,他们可能会收集到关于人类变异重要性的线索。“根据无监督生成模型的最新发展,我们重新审视了进化信息的临床价值。”他们指出。进化倾向于保留对物种的功能和生存至关重要或至少重要的特征。因此,跨物种重复出现的氨基酸排列是生物学重要性的标志,,表明它们对生物体的功能及其进化适应性很重要。因此,改变这种高度保守的序列可能会带来麻烦,并与致病性有关。
该计算方法分析了14万个物种的数据,包括濒危和灭绝的生物,并有效地寻找进化上保守的模式以得出结论。“我们的方法——EVE——从物种间序列变异的分布中了解人类错义变异的致病倾向。”该团队写道。“从进化角度讲,这些物种离我们还有很长的路要走,并且存在许多遗传差异,但综合起来,它们为我们提供了信息。”研究人员说,“这就是为什么该模型在与人类和人类变异相关的模式方面如此强大。”
在对2.5亿个蛋白质序列进行训练后,EVE估计了每个单一氨基酸变异是良性还是致病性的可能性。为了确定EVE是否做出了准确的预测,研究人员将其分数与已知意义的已确定的人类突变进行了比较。研究小组发现,该工具的结果与临床数据非常一致。
接下来,研究人员将EVE应用于一组3219个与疾病相关的人类基因。研究人员说,EVE对所有基因的突变是致病性的还是良性的做出了正确的判断,包括60个“临床上可行”的基因。当研究人员将EVE的表现与其他有监督和无监督工具进行比较时,它显示出明显更高的预测准确性。事实上,分析表明,EVE在预测临床效果方面优于其他计算预测模型,并且得分与目前测试突变对生物功能影响的金标准高通量实验一样高或更好。“EVE在预测已知的临床标签方面优于所有有监督和无监督的方法。”该团队表示。
但是,与评估基因突变如何影响生理功能的金标准——实际临床实验的结果相比,EVE的预测结果如何?为了回答这个问题,研究小组将EVE的分数与临床实验的结果进行了比较,这些实验涉及五种基因的突变,其中包括与各种癌症、几种癌症综合征和心律失常相关的基因。EVE的预测与实验数据中的当前标签重叠。“我们的模型EVE…不仅优于依赖标记数据的计算方法,而且与高通量实验的预测相当,甚至更好,它被越来越多地用作变异分类的证据……我们的方法优于实验方法的主要优势是,以可忽略不计的成本在范围内获得了显著的收益。”
“我们的结果比预期的要好得多。似乎通过简单地训练一个模型来拟合整个进化过程中序列的分布,我们就能提取信息,从而使我们能够对给定基因变异引起的疾病风险做出出乎意料的精确预测。”研究人员说。
EVE与现有方法相比的一个显著优势是,EVE与现有方法相比的一个显著优势是,它分配的是连续分数,而不是二进制分数。这是因为,即使基因变异被标记为良性或致病性,突变在生理上的表现方式也更为微妙。
“有一个完整的致病性连续体。”研究人员说,“连续评分对于预测致病性水平非常重要。突变是意味着我的小脚趾会痛,还是明天就会死了?”
该工具的另一个重要方面是,它在逐个基因的基础上分配预测分数的置信度。这可以帮助临床医生对任何预测的确定程度进行相关分析。换句话说,对于每一种基因变异,EVE都会告诉专家他们可以相信它的判断。研究人员说,这是一个可信度和对模型的信心问题。
“我们希望这种方法能够产生强大的数据,使一线临床医生能够做出正确的诊断、预后和治疗决策。”研究人员说,“我们不仅为临床医生提供了一个数字,还为他们提供了随之而来的不确定性程度。这是专家在决策过程中可以采取和使用的东西。该工具可以说,‘我认为那个变异属于那一堆,但我以前从未见过任何类似的变异,所以请谨慎对待。’或者该工具也可以说,‘我认为其他变异属于这一堆,我见过与过去非常相似的变体,我看到它们属于这一堆,因此我将非常自信地将它分配到这一堆。’在工具和专家之间建立信任是这项工作的一个重要方面。”
研究人员说,这种类型的建模仍处于起步阶段,很明显,进化和基因变异仍然可以教会我们很多关于疾病的知识,他们还计划将这项工作扩展到蛋白质编码区以外的基因组其他部分。然而,他们总结道,“一个吸引人的前景是,我们的方法可能有助于指导未来的实验工作,基本上可以作为一种确定哪些变异和哪些基因最能提供信息的手段。”
近期的一项紧迫任务是将我们确实了解的遗传变异进行临床应用。为此,研究人员已经与一家基因组测序公司合作,并通过Chan ZuckerbergInitiative与各个团体合作。
该团队还参与了变异效应图谱联盟(Atlas of Variant Effects Alliance),这是一项全球研究工作,任务是绘制整个基因组的变异效应图,并创建所有可能的人类基因变异及其对蛋白质功能和生理学影响的综合图谱。这项工作的最终目标是改善人类疾病的诊断、预后和治疗。