Nat Cancer | 多模态数据整合预测肺癌患者对PD-(L)1疗法的反应
原创 骄阳似我 图灵基因 2022-09-04 10:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:骄阳似我
IF:23.177
推荐度:⭐ ⭐ ⭐ ⭐ ⭐
亮点:
1. 本文对247名接受PD-(L)1阻断治疗的非小细胞肺癌患者进行了一项严格治疗的多模式队列研究,以建立一个基于深度注意力的多实例学习模型(DyAM),预测免疫治疗反应。
2. 本文提出了一种自适应加权多模式方法的定量评估和预测方法,该方法与来自组织学、放射学、基因组学和护理标准认可的生物标志物的单峰特征相关。
阻断程序性细胞死亡蛋白1(PD-1)及其配体(PD-L1)以激活细胞毒性抗肿瘤T细胞的免疫疗法迅速改变了非小细胞肺癌的治疗格局。短短4年,PD-1/PD-L1通路阻断疗法(简称PD-(L)1)已成为几乎所有患者治疗的常规组成部分,目前正在肺癌早期阶段和与其他疗法联合进行试验。这些治疗对一部分晚期肺癌患者具有长期、持久的潜在益处。
近期,在Nature cancer杂志上发表了一篇名为“Multimodal integration of radiology, pathology and genomics for prediction of response to PD-(L)1 blockade in patients with non-small cell lung cancer”的文章,该文章试图开发一种新的模型,以整合和综合临床护理期间常规获得的多模式数据,以预测免疫治疗的反应。
建立非小细胞肺癌多模式队列以预测反应。
MSK癌症中心确定了247名晚期非小细胞肺癌患者,他们在2014年至2019年接受了PD-(L)1阻断治疗,基线数据和已知结果称为多模式队列。在多模式队列中,有应答者和无应答者之间的标准临床生物标志物,包括PD-L1肿瘤比例评分(TPS)和TMB显著不同;然而,使用这些特征的分类模型无法完全区分两组。
因此,从MSK-IMPACT临床测序平台为多模式队列收集了常规收集的临床信息、CT扫描、含有非小细胞肺癌的组织中的数字化PD-L1 IHC和基因组特征。利用这些数据建立了多模式生物标志物。首先单独量化每个模态的预测能力,然后将所有可用数据组合成多模态生物标志物,以构建预测响应的算法。通过合并测试集的结果,进行了十倍交叉验证,以获得整个多峰队列的模型预测。
图1 :非小细胞肺癌的多模式队列特征和模式。
来自临床测序数据的反应的基因组预测因子。
本文评估了MSK IMPACT临床测序数据的特征,以检测广泛的体细胞基因改变。使用多模式队列中PFS的多变量分析,EGFR的变化和肿瘤突变负荷(TMB)在突变癌基因(EGFR、ALK、ROS1、RET、MET、ERBB2和BRAF)、肿瘤抑制基因(STK11)、转录调节因子(ARID1A)的多变量分析中显示出显著的修正危险比(aHR)和TMB。
LR(L1-regularized logistic regression)用于确定TMB与反应之间的相关性。在非小细胞肺癌(不包括TMB)中通常研究的基因组改变的预测能力低于使用TMB和基因组改变训练的模型;然而,该模型使用TMB和基因组改变的平均值进行类似的实验,这些特征是独立的预测因子;EGFR和TMB不相关以及STK11和TMB,并且包含TMB对拟合中EGFR和STK11的系数没有影响。这些结果与以前的报告基本一致,证明了它们在多模式数据整合队列中的适用性。
图2:基因组改变和TMB的反应建模。
通过深度学习的多模式集成可以改进预测。
在评估了单峰特征的预测能力后,接下来实施了DyAM模型,以结合放射学、组织学和基因组学特征预测PD-(L)1阻断反应的影响。DyAM模型输出归因于每个模态的风险(部分风险得分)、模态接收的注意力(注意力权重和份额)和总得分。DyAM在没有特征的给定患者中具有掩蔽模式的实用质量。这个使用Kaplan–Meier分析评估了多模式整合的性能,其中基于多模式DyAM的分层在区分高风险和低风险患者方面比PD-L1 TPS和TMB的标准临床生物标志物更有效。使用该框架系统地比较了单峰特征以及双峰和多峰特征的各种组合。
一般来说,分层互补特征提高了模式内和模式间的性能。此外,整合放射学数据和PD-L1衍生特征(TPS和IHC纹理)的双峰动态随机模型导致AUC=2.68和95%置信域0.61–0.75,而PD-L1和基因组特征的组合导致AUC=0.72和95%可信域0.65–0.79。结合放射学和基因组学特征导致最高的双峰表现(AUC=0.76,95%CI 0.69–0.83)。这些双峰特征中的每一个都单独在单峰特征集上进行了改进。
图3:基于Dyam的单峰和多峰响应预测。
使用三种数据模式的最佳全自动方法包括IHC-G特征,AUC=0.78(95%CI 0.72–0.85)。最后,使用PD-L1 TPS评分的三种数据模式得出最高准确度,AUC=0.80(95%CI 0.74–0.86)。这与所有模式的LR评分平均值(AUC=1.72,95%可信区间0.65–0.79)形成对比。所有多峰动态分析结果均显著高于通过置换测试获得的零假设AUC。然后使用多变量Cox回归将DyAM模型与已建立的免疫治疗反应生物标志物以及临床混杂因素进行比较。当将分类器性能与LR风险分数进行比较时,只有集成模型是显著的。
使用DyAM评分将队列分成四分位,并进行相应的Kaplan–Meier分析,重点关注前12个月的PFS,以突出DyAM在治疗后早期分离反应组的潜力。4个月时,最低(保护性)四分位的进展为21%,最高(风险)四分位数的进展为79%,而平均法为30%和60%。
最后评估了重新加权个体数据模式对整体模型性能的影响。在存在数据模式的患者亚群中,观察到去除肺实质结节CT纹理和基因组改变对AUC的影响最大,而该模型对去除IHC纹理和PD-L1 TPS具有鲁棒性。数据模态之间的非线性关系表明了在DyAM中使用的加权方案的影响。在4个月时,较低和较高四分位数之间的比率为3.8,当去除CT纹理或基因组改变时,该比率急剧下降;然而,这种早期分离并没有单独从两种模式中表现出来。随着单峰注意力的增加,所有模式的模型性能都会下降,而动态平均模型的性能优于简单平均。
图4:基于dyam的多峰分析。
生物医学成像、组织病理学和基因组分析的整合以指导肿瘤决策仍处于初步阶段。在此,本文表明,自动从不同模式中提取鉴别特征的机器学习方法具有互补和组合能力,可识别接受免疫治疗的非小细胞肺癌高风险和低风险患者。本文的研究表明,常规诊断数据中的信息内容(包括基线CT扫描、组织病理学切片和临床下一代测序)可以结合起来,以改善对PD-(L)1阻断反应的预测,无论是单独还是标准临床方法。
本文的结果表明可以使用计算和机器学习方法对来自多种癌症诊断模式的现有数据进行注释、提取和组合,以用于非小细胞肺癌免疫治疗反应预测的下一代生物标志物开发。本文的DyAM模型是整合多模态数据的一种有前途的方法,未来使用更大数据集的模型将有可能增强当前治疗决策中的精确肿瘤学实践。
教授介绍:
Sohrab P. Shah
Sohrab Shah于2008年从UBC获得了计算机科学博士学位,Shah的研究重点是通过涉及基因组学和计算建模的综合方法,了解肿瘤如何随时间演变。Shah博士开创了计算方法和软件,用于推断癌症基因组中的突变,并破译癌症进化模式,这些方法和软件已在国际上广泛传播。他在开发新颖、创新的贝叶斯统计模型、算法和计算方法以分析来自患者肿瘤和模型系统的大型、高维基因组学和转录组学数据集方面有着良好的记录。
Shah博士一直在研究乳腺、卵巢和淋巴恶性肿瘤的肿瘤演变。他的工作已在《自然》、《自然遗传学》、《自然方法》、《NEJM》、《基因组研究》、《基因组生物学》等杂志上发表。Shah于2010年被任命为不列颠哥伦比亚省癌症机构和不列颠哥伦比亚大学的首席研究员。此外,Shah博士于2018年4月被任命为MSK计算肿瘤学服务的首任主任,现任Nichols Biondi主席。他担任加拿大计算癌症基因组学研究主席,并获得迈克尔·史密斯健康研究基金会职业研究员奖和特里·福克斯研究所新研究员奖。
参考文献:
Vanguri, R.S., Luo, J., Aukerman, A.T.et al.Multimodal integration of radiology, pathology and genomics for prediction of response to PD-(L)1 blockade in patients with non-small cell lung cancer.Nat Cancer(2022). https://doi.org/10.1038/s43018-022-00416-8