Nature | 从物种间序列变异的分布中了解人类错义变异的致病倾向
原创 骄阳似我 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:骄阳似我
IF:49.962
推荐度:⭐⭐⭐⭐⭐
亮点:
1.本文提出了一种利用深层生成模型预测变异致病性的方法。通过模拟生物间序列变异的分布,捕获了维持适合性的蛋白质序列的约束。本文的模型EVE(变体效应的进化模型)不仅优于依赖标记数据的计算方法,而且与高通量实验的预测相比也表现得更好,这被越来越多地用作变量分类的证据。
2.本文预测了3219个疾病基因中超过3600万个变异体的致病性,并为25.6万个未知意义变异体的分类提供了证据。本文的工作表明,进化信息模型可以为变异解释提供有价值的独立证据,这将在研究和临床环境中广泛有用。
人类基因组测序的指数级增长突出了人类群体中巨大的遗传变异。了解这种基因变异与疾病的相关性有可能改变医疗保健,并推动在收集人类群体基因组信息以及人口统计学和临床数据方面的大规模投资。通过测序,可以进行基因研究,将变异与疾病联系起来,也可以采用基于机制的方法,将变异与生化和细胞表型联系起来。然而,将基因组中的特定变化与疾病表型联系起来仍然是一个公开的挑战,因为人类群体中的变异数量超过了我们能够研究的数量;迄今为止,已经观察到650万个错义变体,其中绝大多数(98%)的后果,甚至在疾病相关基因中,都是未知的。据估计,在将近80亿人口中的某个地方,每一个蛋白质位置(致命的除外)都会有一个变体。
鉴于这一挑战,出现了新的实验技术,可以并行评估数千个突变的影响(有时称为深度突变扫描或多重变异效应分析(MAVE))。然后,这些高通量实验的结果由专家小组(如ClinGen)进行仔细检查,以便对人类变异进行临床解释。然而,这些技术不容易扩展到数千种蛋白质,特别是不能扩展到变体的组合,并且严重依赖于与人类疾病表型相关或至少与人类疾病表型相关的分析的可用性。
近期,在Nature杂志上发表了一篇名为“Disease variant prediction with deep generative models of evolutionary data”的文章,在这项工作中,介绍了EVE,一种仅根据进化序列训练的人类遗传变异分类的计算方法。表明EVE在预测变异致病性方面优于当前最先进的计算方法(没有过度拟合临床标签的风险),并且与高通量实验的预测一样准确。
本文的方法EVE从物种间序列变异的分布中了解人类错义变异的致病倾向(图1)。在第一步中,通过使用表达性深层生成模型(变分自动编码器(VAE))学习每个蛋白质的氨基酸序列分布,从进化过程中的自然序列中捕获约束,包括位置之间的复杂依赖关系。VAEs已经成功地学习了跨多个领域的复杂高维分布,包括蛋白质功能预测。对于每个感兴趣的人类蛋白质,通过在UniRef中搜索约2.5亿个蛋白质序列,对VAE进行多序列比对训练。在对进化序列进行训练后,通过从近似后验分布中取样,估计每种氨基酸变异相对于野生型的相对可能性,本文称之为“进化指数”。本文进行了彻底的架构和超参数搜索,以确保跨蛋白质的稳定性和性能,并证明其优于先前的方法。当将该进化指数与临床标记进行比较时,区分致病性和良性标记的值在蛋白质中明显一致,这表明可以使用无监督的方法来推断致病性。因此,在第二步中,没有使用(半)监督学习将分数映射到标签类别,而是在所有单一氨基酸变异在蛋白质中的进化指数分布上拟合了两组分全局-局部混合高斯混合模型。这一过程的结果是EVE评分——在区间[0,1]内定义的连续致病性评分,0表示最良性,1表示最具致病性。图1:建模策略。
对于这些分配,使用高斯混合模型的预测熵作为分类不确定性的度量,并将变量分为三类:良性、不确定或致病。将EVE应用于一组3219个与ClinVar疾病相关的人类基因。本文的模型可以预测所有基因的所有标记变体的临床意义(图2b),包括60个“临床可作用”基因。此外,EVE的性能对每种蛋白质的标签数量具有鲁棒性(图2b),这表明其可推广到注释较少(或无注释)的基因。EVE在预测已知临床标签方面优于所有监督和非监督方法(图2c)。尽管这些标签中有很大一部分被用于培训性能最佳的方法,并且在某些情况下,在定义标签时被广泛使用。作为避免某些循环的第二个基准,将模型预测与10种蛋白质的40000个实验测量变体进行了比较。由于这些实验原则上独立于ClinVar标记过程,期望该基准能够提供较少偏差的性能估计,尽管相对较少数量的蛋白质。在此基准上,EVE优于所有方法(图2c)。由于变异分类的结果因基因而异,本文方法的一个重要特征是能够为预测分配一定程度的不确定性,从而在预测准确性和变异覆盖率之间进行权衡。撇开越来越多的变异为“不确定”,使我们能够达到比我们确实分类为致病性或良性变异更高的准确性。例如,排除25%的最不确定变异,致病性和良性分类的准确率约为90%(图2b)。图2 :Eve准确预测致病变异。
对于在ClinVar中具有大量高质量标记的五个基因(BRCA1、TP53、PTEN、MSH2和SCN5A),EVE在预测临床意义方面的总体表现与专门设计用于预测致病性的深度突变扫描实验相当,甚至更好(图3)。例如,对于TP53,EVE预测整个蛋白质的良性和致病性变体接近完美分离,而实验预测在四聚体结构域(从位置300到末端)较弱。对于SCN5A(与Brugada综合征和长QT综合征相关),EVE在实验中预测R814Q具有致病性,尽管这是一种功能增益,而不是功能丧失,这表明进化数据包含有关功能增益的信息,并支持已知的遗传学。EVE的表现也略好于对一组高质量标签较少的较大基因进行的实验。由于EVE和MAVE是独立的证据来源,比较它们的结果可能有助于评估临床标记本身。在MSH2、PTEN和TP53中,27种变体中的23种(85%)当EVE评分与ClinVar不一致时,MAVE实验数据支持EVE分类。EVE和实验都支持TP53中的R337H和R337C变体,MSH2中的S554N/T、D660G和I774V变体的良性评分,以及ClinVar具有致病性标签的PTEN评分中的15个变体。同样,EVE和实验分析都支持ClinVar在MSH2中对G759E和E198G有良性标记的致病性临床效应。功能分析预测和EVE之间的一致性可能误导的一个明显警告是功能RNA的情况,例如剪接变异。分析表明EVE预测与高通量HPU的预测一样有效t实验,表明将实验重点放在EVE表现不佳的基因上可能是有益的。图3:在预测变异的临床保留方面与功能性实验一样好。
本文提供了3219个疾病相关基因中3600万个单一氨基酸变体的连续EVE分数。在这些变异中,迄今为止至少在一个人身上观察到约130万个变异,但只有约3%的变异在临床上有一些解释(图4a)。EVE在删除25%的最不确定变异以保持约90%的准确率后,提供了总计约2700万个变异和迄今为止在人类中发现的80多万个变异(约64%)的解释(图4a)。
所有单一氨基酸变体的连续得分与课堂作业的得分形成了互补关系。EVE评分在蛋白质中的分布突出了高致病性的集群,遵循功能重要性可能预期的趋势,如疏水核心、配体结合和活性位点。例如,SCN4A–SCN1B离子通道复合体(PDB 6AGF38)中EVE分数较高的许多变体位于复合体界面,排列在SCN4A孔和SCN1B的疏水核心(图4b,c)。对于错配DNA修复复合物MSH2–MSH6,EVE致病信号对于靠近结合ADP和DNA(PDB 2O8B41)的变体很强,其中临床标记稀疏(但在人群中观察到)(图4d)。图4:3219个变异基因的预测。
人们早就认识到,研究物种间的序列保护模式可以深入了解物种内变异的后果,包括人类变异和疾病关联。通过将机器学习的最新发展与来自不同生物体的快速增加的测序数据结合起来,可以提取比以前实现的更精确的陈述,并且能够在足够大的范围内影响我们对变异的临床意义的总体知识。所有数据、结果和代码均可从网站获取或链接到https://evemodel.org/,将定期更新新基因。
教授介绍:
Debora S. Marks
Debora是一位数学家和计算生物学家,目前在哈佛医学院系统生物学系任副教授,在使用新算法和统计数据成功解决未解决的生物问题方面有着良好的记录。她热衷于以影响生物医学应用的方式解释基因变异。
在博士期间,她量化了microRNA靶向和蛋白质表达组合调控的潜在泛基因组范围,并共同发现了病毒中的第一个microRNA。作为一名博士后,她和她的同事利用进化序列的最大熵概率模型,破解了蛋白质从头算3D结构预测这一经典的、尚未解决的问题。她开发了这种方法来确定功能相互作用、生物分子结构,包括RNA和RNA蛋白质复合物的3D结构以及明显无序蛋白质的构象组合。她在哈佛的新实验室对开发深度学习方法感兴趣,以应对广泛的生物学挑战,包括预测遗传变异的影响和生物合成应用的序列设计。
参考文献:
Frazer, J., Notin, P., Dias, M.et al.Diseasevariant prediction with deep generative models of evolutionary data.Nature(2021).https://doi.org/10.1038/s41586-021-04043-8