AI 当审稿人?大语言模型筛选“老药新用”靠谱吗?


榴莲忘返 2014

大语言模型(LLM)能像初级研究员一样,高效筛选“老药新用”的潜在机会,但前提是你得像个老手一样,知道该怎么“问”它。

  1. 模型分工不同:GPT-4o 像个严谨的专家,精度高但可能错过黑马;DeepSeek 则更像个富有创造力的探索者,召回率高,适合在早期探索中大海捞针。
  2. 提问的艺术是关键:直接问 AI 等于白问。通过精心设计的提示(Prompt),特别是“思维链”和“少样本”策略,才能把 AI 的潜力真正压榨出来。
  3. AI 不是先知,是文献大师:在有据可查的经典案例上,AI 表现近乎完美,证明它只是“博览群书”,而不是在进行真正的从零到一的推理。

我们手头有一堆经过了安全性验证的“老药”,理论上,只要找到它们和新疾病之间隐藏的联系,就能跳过漫长又烧钱的早期研发阶段,直接抄近道。问题是,从数千种药物和疾病中找出这种联系,无异于大海捞针,能把人活活累死。

所以,很多人把希望寄托在 AI 身上。这篇预印本论文想看看,现在火得一塌糊涂的大语言模型(LLM),能不能扮演一个药物研发“审稿人”的角色,帮我们从一大堆假设里筛出那些靠谱的候选者。

研究者们先用生物通路分析,一口气生成了两万多个“药物 - 疾病”的配对假设。这就像是开了一个巨大的脑洞清单。然后,他们挑出 30 个有代表性的例子,扔给 GPT-4o、DeepSeek 这些当红 AI,问它们:“嘿,你觉得这个想法行不行?”

结果相当有意思。不同的 AI 表现出了不同的“性格”。GPT-4o 的准确率最高,达到了 83%,像个经验丰富、下结论十分谨慎的评审,它说行的,基本都错不了。但它的问题是可能有点保守,会漏掉一些有潜力的“非共识”机会。而国产的 DeepSeek,在召回率上表现惊人(92%),它更像一个热情洋溢、想象力丰富的年轻科学家,能给你捞出一大堆可能性,当然里面也混着不少需要你费心去伪存真的沙子。在药物发现的早期阶段,我们宁可错杀一千,不可放过一个,所以 DeepSeek 这种高召回率的特性,价值千金。

更有趣的发现是,怎么向 AI 提问,几乎决定了你能得到什么水平的答案。如果你只是简单粗暴地把问题丢给它(所谓的“零样本”),那它返回的结果基本没法看。可一旦你用上一些“黑话”——比如“思维链”(Chain-of-Thought),强迫它一步步把思考过程写出来,或者给它几个成功的范例(Few-shot),它的表现就会脱胎换骨。这说明,跟 AI 打交道,你不能把它当成一个无所不知的神,而要把它当成一个需要循循善诱、需要清晰指令的学生。

研究者还做了一个“完整性检查”(sanity check)。他们找了 10 个业内公认的、写进教科书的“老药新用”成功案例去考 AI。果不其然,GPT-4o 和 DeepSeek 几乎拿了满分。这反倒说明了一个“残酷”的真相:LLM 的强大,很大程度上源于它“读过”海量的现有文献。它不是在进行从第一性原理出发的科学推理,而是在庞大的数据库里做最强模式匹配。

一个绝佳的例子是,AI 准确判断出钙通道阻滞剂维拉帕米(verapamil)可以用于治疗糖尿病,因为文献里有支持。同时,它也正确地否决了将抗癌药紫杉醇(paclitaxel)用于治疗肥胖症的提议。尽管两者在生物通路上有交集,但 AI(在正确的引导下)似乎理解了“用细胞毒性药物去治慢性病,这在临床上就是个笑话”这种级别的常识。这让人看到了一丝超越简单文本匹配的“医学直觉”的曙光。

那么,我们是不是可以解雇研发团队,换上一堆服务器了?当然不行。AI 的“幻觉”问题依然存在,它会一本正经地胡说八道,甚至给你编造根本不存在的参考文献。所以,现阶段,LLM 最好的定位是一个能力超强、不知疲倦的实习生。它能帮你把浩如烟海的文献资料梳理一遍,把最值得关注的点标出来,让你从繁琐的案头工作里解放出来。但最终拍板、验证、推进项目的,还得是屏幕前那个拥有真正智慧和经验的人类。

📜Title: Accelerating Drug Repurposing with AI: The Role of Large Language Models in Hypothesis Validation 📜Paper: https://www.biorxiv.org/content/10.1101/2025.06.13.659527v1 💻Code: https://github.com/iratxe-zunzunegui/drug-repurposing-validation-LLMs


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容