Nat Rev | 基于DNA甲基化的健康预测
原创 huacishu 图灵基因 2022-03-26 14:23
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=53.242
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者评估了现有基于DNA甲基化的预测因子的进展,包括机器学习技术的贡献;
2、作者评估了确保基于DNA甲基化的预测因子可靠性能所需的关键统计学问题,如数据驱动的特征选择、消除性能评估中的数据泄漏,以及使用可推广的、充分有效的训练样本。
布里斯托大学Caroline L. Relton教授课题组在国际知名期刊Nat Rev Genet在线发表题为“DNA methylation-based predictors of health:applications and statistical considerations”的论文。DNA甲基化数据已成为生物标记物开发的宝贵信息来源,因为与静态遗传风险评估不同,DNA甲基化与各种外源和内源性因素(包括环境风险因素和复杂疾病病理学)有关。大规模全基因组测序的可靠方法导致了表观基因组关联研究的激增,并随后在健康相关应用中开发了基于DNA甲基化的预测因子,从识别风险因素,如年龄和吸烟,到早期发现疾病或癌症进展,如心血管和神经系统疾病。本综述评估了现有基于DNA甲基化的预测因子的进展,包括机器学习技术的贡献,并评估了确保其可靠性能所需的关键统计最佳实践的使用情况,如数据驱动的特征选择、消除性能评估中的数据泄漏,以及使用可推广的、充分有效的训练样本。
根据患者的疾病风险或治疗反应的可能性对患者进行预测和分层是推动临床医学、公共卫生和流行病学研究的主要目标,这种方法有时被称为精确或个性化医学。可以利用与疾病相关的遗传和环境因素的信息来区分此类风险,包括家族史、病史和生活方式。例如,全基因组关联研究(GWAS)试图通过估计风险等位基因的加权组合(称为多基因风险评分(PRS))来预测疾病风险和表型的可遗传成分。尽管它们的可信度各不相同,但研究已经产生了PRS,这些PRS强烈预测复杂的表型,包括身高、身体成分和心血管疾病。然而,PRS预测疾病发生率的能力有其固有的局限性:因为基因型是在受精时建立的,所以他们只能估计终生疾病的可能性,并且他们对任何表型的解释能力在性状的广义遗传力上达到了理论极限。相比之下,DNA甲基化(DNAm)在整个生命过程中动态变化,这是由于一组复杂的内源性生物过程,如疾病病理学、CpG位点密度、时间和谱系变化的细胞特异性,以及对外源性环境暴露的反应。人类基因组中超过3000万个CpG位点上甲基的存在或缺失,建立了在整个发育过程中参与细胞分化的细胞谱系特异性基因表达模式,这种模式通常维持到成年。在对DNA进行亚硫酸氢盐处理后,可以使用基因分型技术测量从细胞群中分离的许多DNA链中特定CpG位点存在的甲基的相对比例,该技术将甲基化的存在或不存在转化为遗传多态性。这种方法允许使用微阵列和测序方法在多个CpG位点同时测量DNAm水平,这种方法具有足够的成本效益,可以大规模用于人类群体研究。这些进展促成了一个对DNAm水平进行基因组水平、位点不可知检测的研究时代,通常称为表观基因组关联研究(EWAS)或甲基组关联研究(MWAS)。基于人群的设计、大规模多重测试和EWAS的统计框架与GWAS有相似之处。EWAS的结果很可能捕捉到不同于静态遗传的组织和时间特异性信息,并有可能在表型遗传极限之外完善或改进PRS表型预测。即使是迄今为止规模最大的EWAS的样本量也远低于当代GWAS的样本量,而且主要是在从血液中分离的DNA中进行的。然而,在技术进步的推动下,例如利用亚硫酸氢盐转化DNA的微阵列技术对数十万个CpG位点进行多重检测,基于DNAm的健康相关表型预测因子开始激增。关于机器学习方法如何通过使用一个数据集自动构建或“训练”预测模型,然后在另一个数据集中评估或“测试”它们的性能,从而改善预测,已经出现了很多说法。为了确保模型充分利用太大而无法手动检查的数据集中可用的预测信息,例如人口规模的DNAm数据,这种自动化已变得越来越必要。迄今为止,对DNAm变异的分析最常见的目的是确定对照组之间DNAm模式的差异是否具有某种因果或机械相关性,这是通过解释性建模方法评估的。然而,如果DNAm水平的变化与未知的机制功能有关,那么它可能与健康相关,如果它是导致疾病风险或进展或对环境暴露的反应的其他内源性风险因素的指数,尤其是如果通过生物监测来测量这些因素是罕见的。一些风险因素和暴露很早就作为信息预测因子的候选因素出现,因为它们有大量相关的CpG位点和显著的影响,尤其是按时间顺序排列的年龄和吸烟行为。从那时起,DNAm预测因子的发展已经扩展到针对越来越多的健康风险因素和暴露因素(图1),诸如年龄、吸烟、饮酒、肥胖和血脂状况以及心理社会因素和压力环境。
除了提供接触史指数外,还可以开发DNAm预测因子,以帮助预测和监测疾病。在这方面,DNAm预测因子可以传达一系列环境风险因素的信息,并检测早期和进展相关的疾病影响。到目前为止,这项工作的大部分都是在癌症环境中进行的,主要侧重于确定早期疾病指标;由于这些应用依赖于疾病起始信号,因此它们的预测或预测性能有一个固有的上限。除了尝试提供早期检测现有疾病的应用程序外,在识别、分型和治疗反应后,仍有很大的空间来解决有关疾病进展轨迹的更细微的临床问题。DNAm模式的改变是肿瘤发生和癌症进展病理生理学的标志。由于DNAm在肿瘤发生中的众所周知的功能作用,人们对将功能发现转化为临床生物标记物应用产生了极大的兴趣。最具特色的成功案例之一是胶质母细胞瘤患者甲基鸟嘌呤DNA甲基转移酶(MGMT)甲基化与化疗反应之间的关系。在大量证据表明肿瘤MGMT甲基化在替莫唑胺的作用机制中具有明确的功能后,在III期试验中,肿瘤MGMT启动子甲基化状态被确认为替莫唑胺化疗治疗的胶质母细胞瘤患者良好预后的生物标志物。DNAm预测因子的大多数肿瘤学应用已开发用于神经和乳腺癌,其次是前列腺癌和头颈癌(图2)。迄今为止,DNAm癌症预测因子的发展受到多个因素的推动,包括总体研究兴趣、诊断不佳和过度筛查问题(例如,前列腺、乳腺)、早期检测的临床需求(例如,肺、卵巢和胰腺)以及功能性疾病的存在,生物相关信号(例如,胶质母细胞瘤检测中的MGMT)。大多数DNAm预测因子都是从肿瘤样本的DNAm谱中得出的,用于预测进展和生存率(图2)。因此,应用仅限于活检组织可用的地方,从而防止在其他关键情况下使用,如癌症的早期检测。对于早期检测,通常只有非侵入性的外周组织可用,其中DNAm与肿瘤生物学的直接相关性较小,但在某些应用中仍被证明是有用的。在这样的环境中,预测因子的开发倾向于结合更多CpG位点的信息,并在大量普通人群中进行训练,而不是在目标患者样本中进行训练。迄今为止进展最快的外周组织研究涉及肺癌和胰腺癌的诊断。使用三个或更少的CpG,来自外周血的DNAm肺癌预测因子一直表现良好(在多个研究中AUC>0.75),并且与临床预测模型相比有了改进。已经有人尝试开发基于血液的DNAm预测因子用于胰腺癌诊断,并具有合理的分类性能(AUC>0.75)。然而,所有这些应用程序仍有待外部验证。从血浆和尿液等外周来源收集的无细胞DNA已日益成为癌症诊断应用的来源,主要集中在肝细胞癌症。这些研究通过检测提供靶向肿瘤信息的肿瘤特异性突变或DNAm模式来识别源自肿瘤细胞的循环DNA片段。早期病例仅评估肿瘤特异性突变,由于循环肿瘤DNA和复发性肿瘤特异性突变水平较低,早期检测灵敏度较低。从那时起,研究已经发展到考虑肿瘤特异性DNAm模式,其覆盖基因组的大片段,并且有时可以提供关于起源组织的信息。一些早期研究报告了对各种癌症的早期诊断有希望的结果,包括颅内肿瘤、肾细胞癌、胰腺癌、膀胱癌和结直肠癌。其中一个用于同时早期检测和确定11种以上癌症起源组织的分析平台正在英国国家卫生局进行临床试验。然而,最初结果中的敏感检测性能仅限于晚期肿瘤,总体临床影响仍有待观察。
迄今为止,用于开发DNAm预测因子的研究设计和方法已经开始为研究人员和临床医生产生有用的结果。然而,在不久的将来,分子表型和大规模数据的可用性可能会扩大,从而可能大幅增加预测结果的价值。迄今为止,大多数可用的预测指标都依赖于微阵列数据。然而,测序越来越被认为是测量DNAm的金标准,因为它提供了DNA片段中单个胞嘧啶甲基化状态的二进制读数,比探针信号强度更容易解释。随着全基因组DNA测序(WGMS)的成本不断下降,微阵列可能很快被取代,成为基于人群的流行病学研究中数据生成的标准。基因组亚群的靶向甲基化测序是测序的可解释性增加和全基因组测序的高成本之间正在出现的折衷方案。基因组靶点可以通过小样本或低测序深度的WGMS研究来确定。目标集的范围从由数十个基因组位点组成的小组到所有基因启动子区域或所有外显子。目前的挑战是减少测量噪声以及计算成本。除了WGMS,甲基化测序将允许询问许多重复DNA序列的区域,使DNAm模型能够包含关于相隔数百个碱基的胞嘧啶之间的DNAm依赖性的详细信息。即使是从测序中获得的有限的依赖性信息也可以改进对DNAm基因表达水平的预测。随着组学技术的普及,寻求将多组学指标组合成单一预测模型的应用范围将会扩大。基因组学、转录组学、蛋白质组学和代谢组学都变得越来越普遍。一些早期的例子已经证明,通过提供补充信息源,将遗传和DNAm数据结合起来可以为预测提供附加值。尽管DNAm在很大程度上依赖于所使用的特定表型和样本类型,但在同样大小甚至更小数量的训练观察中,DNAm已显示出在遗传预测因子之外解释某些健康表型的附加能力。一些特定的方差分量建模方法已经试图利用除DNAm之外的多种因素,包括其他组学,来改进复杂性状预测。然而,将多个组学指标结合起来,又一次扩大了可用特征的范围。对于考虑的每个新的组学测量类别,添加的特征总数将有所不同,可能与添加WGMS数据的数量相似,也可能不同。多组学预测因子将改善其单一组学竞争对手的情况,其中额外的组学增加了关于暴露因素和健康结果的其他维度的信息,例如它们操作的时间框架、细胞类型特异性以及接近暴露或结果源的程度。然而,已经有一些证据表明组学之间存在重叠,例如,当为蛋白质组学测量开发DNAm预测因子时,一个组学分子表型可以被另一个组学分子表型有效预测。无论数据采集扩展到多个维度,使用DNAm数据的预测建模都有很大的潜力,可以通过更多地采用统计最佳实践进行改进。预测建模应用程序容易受到几个常见的设计和实现陷阱的影响,这些陷阱可能会产生偏差,并严重限制结果的影响。目前,在研究DNAm水平的研究中,预测往往是次要的目标,而主要的机制假设是最重要的。这为在不同的应用领域扩展基于DNAm的预测因子的开发提供了大量机会,并提高了临床和研究价值。然而,实现这些改进需要更多地使用更严格的统计方法和绩效评估。这包括更大程度地评估数据泄露的可能性及其夸大报告性能的倾向。机器学习统计方法的应用进展需要改进,并使临床能够理解。其他关键改进包括增加样本量、数据可访问性、表型和培训和测试数据集的参与者多样性。同时,通过仔细考虑观测分区和使用采样程序,通常可以更有效地使用可用数据。最后,进一步关注结果指标的选择和最小化的错误类型,可以更清楚、更经济高效地向目标受众传达预测相关性。这些改进无论是用于诊断、预后、治疗反应还是其他目的,都将释放出在预测研究中利用DNAm特性的巨大潜力。
教授介绍
Caroline L Relton是英国表观遗传学流行病学家。自2017以来,她一直担任布里斯托尔人口健康科学研究所所长,自2015以来,布里斯托大学布里斯托尔医学院表观流行病学教授。她目前是英国癌症研究所资助的综合癌症流行病学项目的首席研究员。此外,她还是《PLoS Genetics》杂志的副主编。1989年,Relton在英国牛津布鲁克斯大学以优异成绩获得生物学和营养学理学学士(BSc)学位。获得理学学士学位后,她于1990年在英国纽卡斯尔大学获得了研究生教育证书(PGCE),并于1999年获得了分子遗传学博士学位。Relton的研究集中在表观遗传学流行病学上,并致力于通过基于人群的方法,提高我们对表观遗传学过程在疾病和发育中的作用的理解。
参考文献
Yousefi PD, Suderman M, Langdon R, Whitehurst O, Davey Smith G, Relton CL.DNA methylation-based predictors of health: applications and statisticalconsiderations. Nat Rev Genet. 2022;10.1038/s41576-022-00465-w.doi:10.1038/s41576-022-00465-w