机器学习破解疾病影响人体的密码
计算机科学家Marinka Zitnik在其职业生涯早期面临一个生物医学难题:在12,000个基因中,哪些基因在模型生物对细菌感染的反应中起作用?这是一个真正的"大海捞针"问题。
但当Zitnik将她设计的机器学习算法应用于生物医学数据时,它预测出八个最可能相关的基因。实验室测试这些候选基因后,研究团队发现其中六个确实与感染有关。她的方法取得了惊人成功。
这一转折点导致Zitnik在机器学习领域进行了十年研究,并担任哈佛医学院生物医学信息学助理教授。在哈佛的Zitnik实验室,她专注于机器学习如何实现准确诊断和新疗法的开发。在某机构研究奖的支持下,她通过在线平台Therapeutics Data Commons(TDC)致力于在全球范围内释放AI增强药物发现的潜力。
治疗数据共享平台
TDC是一个开源数据集和最先进机器学习模型的集合,专注于药物发现和开发。该平台包含来自匿名电子健康记录、医学影像、基因组学、临床试验数据等的数据。生物医学研究人员可以使用TDC的数据,或自带数据和挑战,与机器学习科学家合作,加快药物发现速度,同时降低新药上市的巨大成本。
该平台已被全球超过20万名科学家使用。
助力罕见疾病研究
Zitnik还致力于利用她的技术帮助罕见疾病患者和临床医生。世界上有超过7,000种罕见疾病,每种疾病的已知病例很少,但总体上影响很多人。
由于缺乏标记的患者数据,Zitnik和她的团队将医学原理和先验科学知识(关于生物相互作用、化学、遗传学、患者症状和药物相互作用)融入模型的神经架构中。这使得他们能够使用极少量的标记患者数据,有时甚至完全没有患者数据,来训练复杂的深度学习模型。
云计算在生物医学数据中的力量
云计算对Zitnik实验室的工作至关重要。需要反复在许多不同种类的健康数据上训练模型,确保它们在不同的患者群体、化学结构等上表现良好,即使输入数据相对混乱。
某机构研究奖提供了云计算积分,用于访问这些需要大量训练的模型所需的高性能并行计算。
识别现有药物的新用途
2021年,Zitnik和她的团队希望了解AI方法在识别现有药物以重新用于治疗新兴病原体方面的效果。与从头开发药物相比,识别市场上已有或处于后期临床试验的药物可以节省多年时间和数十亿美元。
研究团队首先在人类相互作用组上训练几何深度学习模型,然后输入超过7,500种现有药物及其作用机制的数据。模型预测并排名了6,340种候选药物。生物医学研究人员在感染COVID-19的细胞上筛选了前918种建议,发现77种药物对病毒有强或弱的影响。
最终确定了六种减少病毒感染的药物,其中四种原则上可以重新用于治疗COVID-19。
级联网络效应
这项实验还揭示了AI方法的另一个强大方面。除了识别与SARS-CoV-2靶向相同蛋白质的药物外,还发现了76种通过间接系统效应成功减少病毒感染的药物。
这些被称为"网络药物"的发现,展示了图神经网络等算法在利用生物医学知识原则进行间接观察和推理方面的能力。
这种由生物医学AI驱动的新发现方法为未来带来了兴奋。这类工具有潜力为个体细胞、疾病和患者生成更准确的科学假设,并帮助弥合实验室和临床环境之间的差距。