2021-10-12

PLOS Bio | AI预测潜在的从动物传播到人类的病毒

原创 图灵基因 图灵基因 今天

收录于话题#前沿生物大数据分析

格拉斯哥大学的科学家的新研究表明,考虑到生物相关的暴露,可以利用使用病毒基因组开发的机器学习 (ML) 模型来预测任何感染动物的病毒迁移到感染人类的可能性。大多数新出现的人类传染病(例如 COVID-19),都是由源自其他动物物种的病毒引起的,因此,及早识别高风险、潜在的动物与人类之间活跃的人畜共患病毒有助于改善研究和监测重点。Nardus Mollentze博士、Simon Babayan博士和Daniel Streicker博士开发的新模型的一个应用表明,他们可以在事先不知道人畜共患病的SARS相关冠状病毒的情况下,将SARS-CoV-2识别为相对高风险的冠状病毒株。


科学家们在《PLOS Biology》上报道了ML模型的开发,他们得出结论,机器学习方法表明“......病毒的人畜共患病潜力可以从它们的基因组序列中推断出惊人的程度,其表现优于当前的替代方案。”他们发表的论文标题为“Identifying and prioritizing potential human-infecting viruses from their genome sequences”。


作者解释说,大多数新出现的人类传染病是由源自其他动物物种的病毒引起的,但在出现之前确定人畜共患疾病是一项重大挑战,因为在估计的167万种动物病毒中,只有一小部分能够感染人类。他们写道:“目前很难确定哪些动物病毒可能会感染人类,这就排除了在早期调查和疫情准备中优先考虑高风险病毒的可能性。”



大多数病毒现在是使用非靶向基因组测序发现的,这通常涉及许多同时发现,但表型数据有限,因此理想的方法是仅从病毒序列数据中量化相关暴露后人类感染的相对风险,该团队继续说道。“通过确定需要进一步调查的高风险病毒,这种预测可以缓解病毒发现的快速步伐与全面评估风险所需的低通量现场和实验室研究之间日益严重的不平衡。”



目前的模型可以从基因组序列中识别出特征明确的人类感染病毒。然而,通过对密切相关的病毒(例如同一物种的不同毒株)进行算法训练,但可能会忽略与感染能力相关的病毒基因组的次要特征,这意味着这些模型不太可能发现泛化于病毒的“人畜共患病状态信号”。相比之下,该团队指出,“我们的目标是开发机器学习模型,该模型使用从病毒和人类基因组序列中设计的特征来预测任何动物感染病毒在给定生物学相关暴露(此处为人畜共患病可能性)的情况下感染人类的可能性。”



为了利用病毒基因组序列开发更精确的机器学习模型,研究人员首先汇编了36个家族中861种病毒的数据集。接下来,他们建立了机器学习模型,根据病毒分类和/或与已知人类感染病毒的相关性,确定人类感染的概率。然后,他们应用性能最佳的模型来分析从一系列物种中采样的其他病毒基因组的预测人畜共患病潜力模式。



研究人员发现,病毒基因组可能具有独立于病毒分类关系的可概括特征,并且可能使病毒预先适应感染人类。该团队能够开发出能够利用病毒基因组识别候选人畜共患病的机器学习模型。他们总结道:“由于只需要一个基因组序列,我们的方法在数量和质量上都优于人畜共患病风险评估的替代模型。”他们还指出,可以应用于特征不佳的病毒的人畜共患病风险常规指标,包括病毒分类和与人类感染物种的相对亲缘关系,具有“有限的辨别力”。他们说,这“对如何感知风险具有深远影响。”因此,虽然假设新发现的病毒与已知会感染人类的病毒密切相关可能是一种直觉,但该团队还指出,据他们所知,这一假设从未经过测试。


该团队承认模型的使用存在局限性,因为计算机模型只是识别可能感染人类的人畜共患病病毒的初步步骤。他们指出,在进行重大的额外研究投资之前,这些模型标记的病毒需要进行确认性实验室测试。此外,虽然这些模型预测了病毒是否能够感染人类,但感染能力只是更广泛的人畜共患病风险的一部分,这也受到病毒在人体内的毒力、人与人之间传播的能力以及人类接触时的生态条件的影响。


这组作者说:“我们的研究结果表明,病毒的人畜共患病潜力可以从其基因组序列中惊人地推断出来。通过突出显示最有可能成为人畜共患病的病毒,基于基因组的排名可以更有效地进行进一步的生态和病毒学表征。”


研究人员补充道:“这些发现为我们利用人工智能技术从病毒基因序列中提取的数量惊人的信息增加了一个关键部分。基因组序列通常是我们掌握的关于新发现病毒的第一个,通常也是唯一的信息,我们可以从中提取的信息越多,我们就越早确定病毒的起源及其可能带来的人畜共患风险。随着更多的病毒被表征,我们的机器学习模型在识别稀有病毒方面将变得更加有效,这些病毒应该受到密切监测,并优先用于开发先发制人的疫苗。”


而且,正如作者总结的那样,“与所涉及的机制无关,我们模型的性能表明,越来越普遍和低成本的基因组序列数据可以在病毒发现的早期阶段为病毒研究和监测优先事项提供决策信息,而几乎不需要额外的资金或时间投入……基于基因组的人畜共患病风险评估提供了一种快速、低成本的方法,以实现循证病毒监测,并提高病毒下游生物和生态特征的可行性。”

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容