Nat Med | 强化学习优化基于风险的乳腺癌筛查策略
原创 榴莲不酥 图灵基因 2022-01-26 15:26
收录于话题#前沿生物大数据分析
撰文:榴莲不酥
IF=53.440
推荐度:⭐⭐⭐⭐⭐
亮点:
1. Tempo策略与基于图像的AI风险模型相结合,在模拟早期检测方面比临床实践中使用的当前方案明显更有效。
2. 基于AI风险模型的Tempo策略优于基于不太准确的临床风险模型的Tempo策略。3.将基于AI的风险模型与敏捷的AI设计的筛查策略相结合,可通过推进早期检测同时减少过度筛查来改进筛查计划。
2022年1月13日,在Nature Medicine杂志上发表了一篇名为“Optimizing risk-based breast cancer screening policies with reinforcement learning”的文章,其重点关注了与现代风险评估模型的能力增强相适应的筛查方案的设计。风险评估算法的重大变化推动了对个性化筛查新方法的需求。
传统的风险评估模型依赖于编码患者人口统计学和临床病史的大量分类变量,并结合传统的统计模型来预测风险,这些风险模型的有限预测能力限制了它们支持的建议的范围,从而限制了它们对筛查方案的影响。深度学习算法使这些风险模型能够对原始患者数据以及传统专家指定的分类变量进行操作。此外,这些模型可以检测高度复杂的依赖关系,这进一步增强了它们相对于传统方法的预测能力。从计算的角度来看,可以将乳腺癌筛查视为一项连续的决策任务,研团队希望制定筛查指南为每位患者预先制定一项随访建议,以最大限度地提高效率使他们有机会及早发现,同时最大限度地降低筛查成本。
如何根据患者的风险状况确定筛查间隔?可以将筛查问题转化为马尔科夫决策过程,该公式能够使用强化学习(RL)算法找到该马尔科夫决策过程的最佳可能策略。策略是随机初始化的,通过随机探索和利用当前知识的混合,RL算法迭代地改进策略。研究团队应用RL提出了一个独特的挑战,即根据回顾性数据估计患者的轨迹。与个体患者相关的培训数据仅包含在进行乳房X光检查时有关其风险的信息。为了确定算法是否给出了正确的建议需要知道中间点的风险评估。因此,设计了一种算法即学习从观察到的筛查中推断患者在未观察到的时间点的风险。随着患者新的乳房X光片的出现,这种估计也随之发展。有了这些预测可以指导强化学习者根据估计的风险调整其行动。使用回顾性轨迹作为模拟环境,通过训练筛选策略以最大化患者不断变化的风险评估的未来回报,如图1所示。
图1:MGH测试集的回顾性患者轨迹与不同指南推荐的轨迹进行比较
将完整框架命名为Tempo,如图2所示。首先训练一个风险进展神经网络,根据先前的评估预测未来的风险评估。然后,该模型用于估计未观测时间点的患者风险,并使能够模拟基于风险的筛查政策。接下来,培训筛查政策,该政策作为一个新的网络实施,以最大限度地提高回顾性培训集的回报(即早期检测和筛查成本的组合)。使用包络Q-learning17对筛选政策进行培训,以支持所有可能的早期检测与筛选成本权衡。筛查政策的输入是患者的风险评估和奖励之间的期望权重。奖励平衡了两个截然不同的方面,一个反映了成像成本,另一个是与回顾性筛查轨迹相关的建模早期检测效益。早期检测奖励测量每个患者的推荐筛查日期与实际诊断日期之间的时间差。通过模拟对被拒患者的建议来评估筛查政策。
图2:Tempo的概述
研究团队认为主要目标是制定个性化筛查政策,使其优于现行指南,提高早期发现率,同时降低筛查成本,为此开发了Tempo Mirai。这是一项经过RL培训的筛查政策,用于Mirai风险评估。在所有测试集上使用相同的Tempo Mirai操作点以评估个性化筛选策略,说明了所有测试集中不同操作点的速度性能。为了理解基于节奏的策略的灵活性,在图3中绘制了每个策略的性能,同时改变了筛选偏好,这指定了早期检测和筛选成本之间的期望平衡。Tempo Mirai建议在MGH、Emory、Karolinska和CGMH测试集中进行不同数量的乳房X光片筛查,这种差异可归因于不同中心之间癌症发病率的差异。然而,该模型可以在所有测试集上提供一组不同的可能操作点;结果表明不同的医院可能需要输入不同的操作点,以获得相同的平均筛查量。
图3:与MGH,emory,Karolinska和CGMH每年的乳房X光检查数量相比
在MGH测试集中,发现Tempo Mirai比Tempo-TCv8、监督Mirai和年度筛查更有效,每筛查成本获得更高的早期检测率。如图4所示,发现Tempo Mirai提供了比其他方法更广泛的推荐频率范围,反映了更大程度的个性化。这反映了两种政策之间的优化差异。Tempo Mirai经过优化,以最大化患者轨迹的总体回报,通过早期检测和筛查成本衡量,并且在特定的风险评估中未收到任何关于正确建议的明确指导。因此,Tempo Mirai可以灵活地在培训期间探索各种可能的建议,以确定高绩效的政策。相比之下,监督Mirai有一个严格的建模目标,它被训练来预测来自每个风险评估的最佳筛选建议。
图4:MGH,emory,Karolinska和CGMH测试集上每个筛选准则的筛选频率直方图
在不同测试集的实证结果取决于早期检测指标假设的准确选择。早期检测指标测量了每个患者推荐筛查日期和诊断日期之间的时间差。为了测试模型的稳健性,评估了Tempo Mirai、监督Mirai和所有测试集的年度筛查。对于每项政策,测量其筛查效率以便在推荐不同筛查量的政策之间进行头对头比较,结果证明Tempo Mirai比所有数据集和假设的年度筛选更有效。
在本文中,研究团队开发了一个用于个性化筛查的RL框架Tempo用于预测患者风险评估的后续建议,证明了基于Mirai风险评估的Tempo政策比年度筛查更有效,实现了每筛查成本的早期检测。此外,使用MGH数据制定的政策普遍适用于emory、Karolinska和CGMH的测试集,显著优于年度筛查和我们的监督学习基线。最后,证明了结果在早期检测指标的一系列可能假设中是稳健的,具有可操作性。
作者简介
Regina Barzilay是麻省理工学院电子工程和计算机科学系AI和健康工程学院的杰出教授,也是麻省理工学院计算机科学和人工智能实验室的成员。她是麻省理工学院(MIT)机器学习健康中心贾米尔诊所(Jameel Clinic)的人工智能教员主管。研究兴趣是分子建模的机器学习模型,并将其应用于药物发现和临床人工智能。她还从事自然语言处理,是多个奖项的获得者,包括NSF职业奖、麻省理工学院技术评论TR-35奖、微软教员奖学金和NAACL和ACL的几项最佳论文奖。2017年,她获得了麦克阿瑟奖学金、ACL奖学金和AAAI奖学金。
参考文献
Yala A, Mikhael PG, Lehman C, et al.Optimizing risk-based breast cancer screening policies with reinforcementlearning. Nat Med. 2022 Jan 13. doi: 10.1038/s41591-021-01599-w. Epub ahead ofprint. PMID: 35027757.