Nat Med | 多模态生物医学人工智能
原创 huacishu 图灵基因 2022-09-22 16:26 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=87.241
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者探索了个性化医疗、数字临床试验、远程监测和护理、流行病监测、数字孪生技术和虚拟健康助理的应用机会;
2、作者调查了必须克服的数据、建模和隐私挑战,以实现多模式人工智能在健康领域的潜力。
斯克利普斯研究所Eric J. Topol教授课题组在国际知名期刊Nat Med在线发表题为“Multimodal biomedical AI”的论文。来自大型生物库、电子健康记录、医学成像等生物医学数据的发展,以及基因组和微生物组测序的较低成本,为开发捕捉人类健康和疾病复杂性的多模式人工智能解决方案奠定了基础。
在这篇综述中,作者探索了个性化医疗、数字临床试验、远程监测和护理、流行病监测、数字孪生技术和虚拟健康助理的应用机会。此外,作者调查了必须克服的数据、建模和隐私挑战,以实现多模式人工智能在健康领域的潜力。
虽然人工智能(AI)工具已经改变了几个领域(例如,语言翻译、语音识别和自然图像识别),但医学领域却落后了。这主要是由于数据中包含大量独特的特征或信号,导致在开发和验证适用于不同人群的解决方案时面临技术挑战。然而,现在可穿戴传感器的广泛使用和数据采集、聚合和分析能力的提高,以及基因组测序和相关“组学”技术成本的降低。这为新型工具奠定了基础,并在生物医学发现、诊断、预后、治疗和预防方面提供价值。
多模式人工智能模型的开发将包括生物传感器、遗传、表观遗传学、蛋白质组学、微生物组学、代谢组学、成像、文本、临床、社会决定因素和环境数据在内的多种模式的数据整合在一起,并实现广泛应用,包括个体化医疗、综合、实时流行病监测、数字临床试验和虚拟健康教练(图1)。在这篇综述中,作者探讨了在医疗保健中使用这种多模态数据集的机会;然后,讨论了关键挑战和有希望的战略。
利用多模式数据的机会
精准健康的个性化“组学”
随着过去二十年来测序技术的显著进步,可以使用新技术开发获得的生物数据量发生了一场革命。这些统称为“omes”,包括基因组、蛋白质组、转录组、免疫组、表观基因组、代谢组和微生物组。
每个组学在不同的临床和研究环境中显示了各自的价值。恶性肿瘤的基因和分子标记物已被纳入临床实践,美国食品和药物管理局(FDA)批准了若干配套诊断设备和基于核酸的测试。例如,基础医学提供了全面的基因组分析,以确定潜在的治疗靶点为最终目标。除了这些分子标记物之外,液体活检样本和易于获取的生物液体(如血液和尿液)正在成为精确肿瘤学中广泛使用的分析工具,一些基于循环肿瘤细胞和循环肿瘤DNA的测试已经获得FDA批准。
除肿瘤学外,遗传数据的可用性和共享显著增加,这使得全基因组关联研究和复杂人类条件和特征的遗传结构特征化成为可能。这提高了我们对生物途径的理解,并产生了多基因风险评分等工具,可能有助于风险分层和个体化治疗,以及在临床研究中丰富最有可能从干预措施中受益的参与者的招募。
数字化临床试验
随机临床试验是研究因果关系的金标准研究设计,并提供证据支持在临床医学中使用新的诊断、预后和治疗干预措施。但是,规划和执行高质量的临床试验不仅耗时,而且也非常昂贵。数字化临床试验可以提供一个前所未有的机会来克服这些限制,减少参与者注册和保留的障碍,促进参与,优化试验测量和干预。同时,数字技术的使用可以提高从参与者获得的信息的粒度,从而提高这些研究的价值。
临床试验中的患者招募和保留至关重要,但仍然是一个挑战。在这种情况下,人们对综合控制方法的利用越来越感兴趣(即使用外部数据创建控制)。利用来自不同模态的数据的人工智能模型可能有助于识别或生成最佳合成控制。
远程监控:家中医院
生物传感器、连续监测和分析的最新进展提高了在家中模拟医院环境的可能性。这提供了显著降低成本、减少对医疗人员的需求、避免医院感染和医疗设施中发生的医疗错误的承诺,以及与家人在一起的舒适、便利和情感支持。
在这种情况下,可穿戴传感器在远程患者监测中起着至关重要的作用。可以准确测量多种生理指标的相对便宜的非侵入性设备的可用性正在迅速增加。将这些数据与使用快速医疗互操作资源等标准从EHR中获得的数据相结合,这是一种用于交换医疗数据以查询有关患者潜在疾病风险的相关信息的全球行业标准,可以为患者和护理人员创造更个性化的远程监控体验。
来自这些多模态和传感器的数据的集成为改进远程患者监测提供了一个有希望的机会,一些研究已经证明了这些场景中多模态数据的潜力。除了慢性或退行性疾病的管理之外,多模式远程患者监测也可用于急性疾病。
大流行监测和疫情检测
当前的新冠肺炎大流行突出了在国家和州一级进行有效传染病监测的必要性,一些国家成功地整合了来自手机使用和医疗服务数据的多模式数据,以预测疫情的传播并识别潜在病例。一项研究还证明了利用可穿戴设备跟踪的静息心率和睡眠时间来改善美国流感样疾病的监测。大流行防备和应对中多模式人工智能模型取得了有希望的结果,但需要进一步验证和复制这些结果。
数字孪生技术
数字孪生技术是从工程学中借用的概念,它使用复杂系统(例如,城市、飞机或患者)的计算模型来开发和测试不同的策略或方法,比在现实场景中更快、更经济。在医疗保健领域,数字孪生技术是一种很有前途的药物靶点发现工具。开发能够有效地从所有这些数据模式中学习的人工智能模型,以进行实时预测,是至关重要的。
虚拟健康助理
最近对以健康为重点的会话代理应用程序的审查发现,其中大多数依赖基于规则的方法和预定义的应用程序引导的对话。这些虚拟健康助手最受欢迎的应用之一是糖尿病护理。不幸的是,这些应用大多仅在小型观察性研究中进行了测试,还需要更多的研究,包括随机临床试验,以评估其益处。
展望未来,人工智能模型中多个数据源的成功集成将有助于开发重点广泛的个性化虚拟健康助理。这些虚拟健康助理可以利用基于基因组测序、其他组学、血液生物标志物和代谢物的连续监测、生物传感器和其他相关生物医学数据的个性化配置,以促进行为改变、回答健康相关问题、分诊症状或在适当时与医疗保健提供者沟通。
多模式数据收集
成功开发多模式数据支持应用程序的第一个要求是收集、整理和协调表型良好的大型数据集。这些数据集中多模态数据的可用性可能有助于在一系列不同任务中实现更好的诊断性能。例如,在识别肺栓塞和区分急性呼吸衰竭(如心力衰竭、肺炎或慢性阻塞性肺疾病)的常见原因方面,成像和EHR数据的组合优于单独使用这些方法。其他专注于精神疾病的研究,如用于早期精神病管理的个性化预后工具,也收集了几种类型的数据,并已授权开发多模式机器学习。
技术挑战
实施和建模挑战
健康数据本质上是多模态的。我们的健康状况包括许多领域(社会、生物和环境),这些领域以复杂的方式影响我们。此外,这些领域中的每一个都是分层组织的,数据从宏观层面(例如,疾病存在或不存在)到深入微观层面(例如生物标志物、蛋白质组学和基因组学)。多模态机器学习是机器学习的一个子领域,旨在开发和训练能够利用多种不同类型数据的模型,并学习将这些多模态关联起来或组合起来,以提高预测性能。
DeepMind(Alphabet)提出了一个具有相同主干架构的跨模式学习框架。重要的是,感知者架构的输入是模态无关字节数组,通过压缩以避免依赖于内存成本(图2a)。在处理这些输入之后,感知者然后可以将表示反馈到最终分类层以获得每个输出类别的概率,而感知者可以通过指定感兴趣任务的查询向量将这些表示直接解码为任意输出,例如像素、原始音频和分类标签。除了成功治疗反应的概率之外,该模型还可以输出正在发展的脑肿瘤的预测成像。
事实上,DeepMind的一项研究表明,管理更高质量的图像-文本数据集可能比生成大型单模态数据集以及算法开发和训练的其他方面更重要。然而,在生物医学人工智能环境中,这些数据可能不易获得。这个问题的一个可能解决方案是利用来自一种模式的可用数据来帮助学习另一种模式,这是一种称为“共同学习”的多模式学习任务。
另一个重要的建模挑战涉及多模式健康数据中包含的维度数量。随着维度(即数据集中包含的变量或特征)的数量增加,携带这些特征的某些特定组合的人数减少(或对于某些组合,甚至消失),导致“数据集盲点”,即,特征空间中没有任何观察的部分(特征或变量的所有可能组合的集合)。这些数据集盲点可能会损害模型在实际预测方面的性能,因此应在模型开发和评估过程的早期予以考虑。
多模式融合是一个通用概念,可以使用任何架构选择来解决。虽然不是生物医学,但可以从一些人工智能成像工作中学习;现代引导图像生成模型(如DALL-E和GLIDE)通常将来自不同模态的信息连接到同一编码器中。这种方法在DeepMind最近进行的一项研究中被证明,该研究表明,连接由文本、图像和按钮等创建的各种标记,可以用来教模型执行不同任务(图2b)。
数据挑战
支撑健康的多维数据在收集、链接和注释这些数据方面带来了广泛的挑战。医学数据集可以沿着几个轴进行描述,包括样本大小、表型深度、随访时间长度和间隔、参与者之间的互动程度、参与者的异质性和多样性、数据的标准化和协调程度以及数据源之间的联系量。虽然科学和技术在促进数据收集和表型分析方面取得了显著进步,但生物医学数据集的这些特征之间不可避免地存在着权衡。
目前正在进行努力,为生物医学数据集提供有意义的协调,例如由观测健康数据科学和信息学合作开发的观测医疗结果伙伴关系共同数据模型。协调极大地促进了研究工作,提高了再现性和转化为临床实践。然而,协调可能会模糊某些疾病的相关病理生理过程。
实践证明,在种族/族裔、血统、收入水平、教育水平、医疗保健获得、年龄、残疾状况、地理位置、性别和性取向方面实现多样性是困难的。基因组学研究是一个突出的例子,绝大多数研究集中于欧洲血统的个体。然而,生物医学数据集的多样性是至关重要的,因为它是确保更广泛人群普遍性的第一步。除了这些考虑之外,多模式人工智能的一个必要步骤是适当链接数据集中可用的所有数据类型,这是另一个挑战,因为识别个人和监管限制的风险越来越大。
生物医学数据的另一个常见问题是丢失数据的比例通常很高。虽然在某些情况下,在培训前简单排除缺失数据的患者是一种选择,但当其他因素影响缺失数据时,可能会出现选择偏差,并且通常更适合使用统计工具解决这些差距,例如多重插补。因此,插补是从基因组学到临床数据等许多生物医学科学领域中普遍存在的预处理步骤。
隐私挑战
健康领域多模态人工智能的成功开发需要数据的广度和深度,这比单模态人工智能模型包含更高的隐私挑战。鉴于这些挑战,已经提出并探索了多种技术解决方案,以确保训练多模式人工智能模型时的安全和隐私,包括差分隐私、联合学习、同态加密和群学习。重要的是,这些方法通常是互补的,它们可以而且应该一起使用。
结论
多模式医疗人工智能解锁了医疗保健领域的关键应用,除此之外还有许多其他领域。药物发现领域是一个相关的例子,许多任务可以利用多维数据,包括目标识别和验证、药物相互作用预测和副作用预测。虽然作者解决了使用多模式人工智能的许多重要挑战,但本综述范围之外的其他挑战也同样重要,包括假阳性的可能性以及临床医生应如何解释患者的风险。
凭借捕获多维生物医学数据的能力,我们面临着深入了解每个个体独特性的表型的挑战。需要跨行业和部门协作,以收集和链接大型和多样的多模式健康数据。然而,在这个关键时刻,我们在整理和存储这些数据方面比在数据分析方面要好得多。为了有意义地处理这些高维数据并实现许多令人兴奋的应用,需要医学界和人工智能研究人员的集中共同努力来构建和验证新模型,并最终证明其对改善健康结果的效用。
教授介绍
Eric Topol在罗切斯特大学获得医学学位,在加利福尼亚大学、旧金山和约翰·霍普金斯大学接受培训后,前往密歇根大学,是分子医学系教授,也是Scripps Research的执行副总裁,Scripps Research Translational Institute的创始人和主任。他的工作融合了基因组学、大数据、信息技术和数字健康技术,以推进个性化医疗的前景。2016年,美国国家卫生研究院授予托波尔博士2.07亿美元的赠款,用于领导“全美国研究计划”的重要部分,这是一项长期研究,旨在了解一个人的遗传、环境和生活方式如何指导预防或治疗疾病的方法。Eric Topol发表了1100多篇同行评议文章,他的20多万篇引文使他跻身汤森路透科学信息研究所(Thomson Reuters’Institute for Scientific Information)的医学领域被引用最多的前10名研究人员之列。Eric Topol被广泛视为美国最具影响力的医生领袖之一,他著有两本关于医学未来的畅销书:《医学的创造性破坏》和《患者将看到你》。他的下一本书《深度医学》,专注于人工智能,将于2019年出版。
参考文献
Acosta JN, Falcone GJ, Rajpurkar P, Topol EJ. Multimodal biomedical AI. Nat Med. 2022;10.1038/s41591-022-01981-2. doi:10.1038/s41591-022-01981-2