Cell | AI机器学习在癌症临床诊断、预后和治疗中的进展
原创 鱼 图灵基因 2023-03-14 10:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:鱼
IF=66.8493
推荐度:⭐⭐⭐⭐⭐
亮点:
1. 机器学习(ML)已在肿瘤治疗中得到广泛研究,以肿瘤诊断,预测患者的病情,并为治疗计划提供信息。
2. 机器学习模型已得到部分国家监管批准,在癌症诊断、癌症发展预测、癌症治疗和肿瘤检测中得到应用。
核心词汇:
机器学习:利用计算机算法和统计模型,逐步提高机器完成特定任务的能力。
2023年3月10日,通讯作者为斯坦福大学的教授在《Cell》发表了题为“From patterns to patients: Advances in clinical machine learning for cancer diagnosis, prognosis, and treatment”的文章。
在过去的十年里,机器学习(ML)在医学,特别是在肿瘤学领域的应用呈现出快速增长。作为一类复杂的、不均一的和普遍的疾病,癌症既引发了一系列具有挑战性的诊断问题,也提供了丰富相关数据,这使得临床肿瘤学成为机器学习的一个新兴的领域。机器学习利用大数据学习数据集的模式和结构(参见机器学习入门部分对机器学习的简要介绍)。丰富的医学成像和相关分子数据促进了机器学习的应用,将这些数据源与早期癌症检测、癌症进展监测和优化治疗方法相关联,已成为新兴的癌症研究方向。
医学成像已经成为机械学习辅助癌症诊断的有力工具。医学成像能够实现廉价和扩展性的癌症检测、定位和监视。放射学图像以及其他图像形式,如表层图像或结肠镜检查,可用于筛查和诊断组织样本中的病理图像并进行癌症诊断,辅助决策化疗或免疫治疗的方案。
由于医学成像在临床肿瘤诊断中越来越重要,成像数据的数量往往超出病理科医生的处理能力。因此,为减少临床医生的工作量,加速对时间敏感的图像的分析,并减少临床医生的错误通过自动化方法处理医学成像势在必行。计算机视觉机械学习技术的进步已经适用于医学成像,并已经在临床肿瘤学中快速准确地分析各种成像方面显示出可观的前景。
常见的机械学习模型的建立需要完成多个步骤:(A)构建随机树以进行输入对象的初步判断,基于输入特征学习模型将进行二元判断;(B)基于初步判断,学习模型将在特征空间中生成一个边界(二维度的线或多维度的超平面)以区别不同类型的数据点;(C)回归模型综合输入特征的组合,并对特定组合输入标签;(D)学习模型模拟人类神经网络,由多层神经元组成,它们迭代计算输入的特定组合,以预测结果,如癌症的概率;(E)学习模型构建重复性神经网络,通过对输入对象中的每个对象应用相同的神经网络层,并保持它所见预测的结果;(F)卷积神经网络使用称为过滤器神经元模块来扫描图像以寻找最终模式。早期层识别边缘等低级特征,而后期层识别肿瘤形态等高级特征;(G)通过将模式中每个元素进行比较,更新相关的内部表示方法;(H)图像神经网络以图结构数据设计的,比如相邻细胞的图。它首先对图中每个节点和边的基本特征进行编码,然后神经网络层在图中传递信息来更新节点和边的表示,然后用这些表示来预测图的标签。
相应地,构建用于癌症诊断、预后和治疗的机器学习模型则需要通过三个步骤: (A)用于癌症诊断的常见分子数据集,包括循环游离DNA (cfDNA)、甲基化水平和片段组学。目前已通过实体瘤活检的全基因组测序、单细胞转录组学和批量RNA测序生成了用于癌症预后的众多分子数据集。利用分子数据进行癌症治疗方向的预测和选择是一个快速发展的领域,它结合了基础分子技术和新兴方法,如空间组学。(B)分子数据通用机械学习模型的设计。(C)针对分子数据,调整机械学习模型的选择。
机械学习算法的研发反映了肿瘤研究领域的显著进展。然而,在机械学习算法应用于患者之前,它们需要获得监管机构的批准,这需要经过已发表的学术论文更严格的临床试验和验证的测试。因此,只有部分机械学习算法最终用于患者。其中,它们通常在几个预先设定的任务中表现良好,如检测和分诊设置,并且它们在不同的患者人群中表现出可靠性和普遍适用性。
在美国,大多数机械学习算法由食品和药物管理局(FDA)作为医疗设备进行监管。在过去十年中,超过300个AI支持的医疗设备获得了FDA批准,其中超过40%自2020年以来获得批准。表一展示了十余种肿瘤通过审核批准、应用于临床诊断、预测和治疗的诊断机械学习模型。
然而,机械学习发展中仍然存在局限性,缺乏高质量、多样化的评估妨碍了在患者人群中评估算法真正性能的能力。一个因素是缺乏标准的测试数据集——很难进行现场验证,也很难获得患者数据,部分原因是隐私问题和限制性数据使用协议。机械学习模型的一个有充分记录的现象是,它们可以学习设备类型和演示图形中出现的伪相关性,从而在不同患者人群中评估时导致有偏倚的性能。此外,评估测试集通常富含阳性病例,这可以产生不平衡的比较。
前瞻性试验对于衡量适当的临床结局也很重要,而不是与独立参考文献进行简单比较。例如,如果机械学习设备用于临床诊断辅助,则应通过比较使用和不使用该设备的临床医师性能来评估,而不是单独评估该设备的预测。随机化患者队列可以最大限度地减少选择测试人群时的偏倚。此外,前瞻性试验可以捕捉部署后发生的人类- AI交互。有必要在机械学习算法获得批准后对其进行持续性能监测,并建立上市后监测机制,以确保机械学习据称的临床优势在不同的情况下保持不变。
未来,机械学习的发展依赖于生物医学数据、整合影像学和组学以及机械学习方法论的发展,新的生物医学和机器学习技术正在迅速出现,这将改变机器学习应用于癌症诊断的方式,并显著提高这些模型的预测能力和临床实用性。
教授介绍
James Zou,斯坦福大学生物医学数据科学和计算机科学与电子工程教授,斯坦福大学机器学习、基因组学和健康实验室负责人。致力于机器学习的广泛问题,如证明数学性质、构建大规模算法。
参考文献
Swanson, K., et al., From patterns to patients: Advances in clinical machine learning for cancer diagnosis, prognosis, and treatment. Cell, 2023.