Biomni:一个 AI 包揽所有生物医学研究?


斯坦福搞出的 Biomni,看起来像个无所不能的科研“瑞士军刀”,但要说它能独立完成所有研究,我还是先泡杯咖啡冷静一下。

  1. 野心巨大:Biomni 的目标不是解决某个单一问题,而是要打造一个能跨越 25 个生物医学子领域、执行从数据分析到实验设计全流程的通用型 AI。
  2. 架构聪明:它把一个强大的 LLM 推理大脑(Biomni-A1)和一个包含 150 个工具、59 个数据库的“豪华工具箱”(Biomni-E1)结合起来,让 AI 不仅能“思考”,还能“动手”。
  3. 结果惊人,但现实复杂:在标准测试中,它的表现媲美甚至超越人类专家,但在真实、充满意外和噪音的研发世界里,它的泛化能力才是真正的考验。

又是一个无聊的下午, 我对着满屏的文献、跑了一半的实验数据和写了一半的代码,感觉脑子快烧了。生物医学研究这活儿,就是这样,数据像洪水,文献像海洋,实验流程又臭又长,一个人恨不得劈成八瓣用。

就在这时,我看到了斯坦福 Jure Leskovec 团队的这篇新预印本——Biomni。标题口气大得吓人:“一个通用生物医学 AI 智能体”。又一个 AI 想“颠覆”我们这个行业。

研究者总共干了两件事。第一,他们建了个叫 Biomni-E1 的“豪华游乐场”。这里面塞满了我们搞研究能用到的一切:150 个专业工具,105 个软件包,59 个核心数据库,横跨基因组学、蛋白质组学、药物发现等 25 个领域。这就像给一个实习生配齐了全世界最顶级的实验室,而且所有仪器都联网了。

第二,他们训练了一个叫 Biomni-A1 的“超级大脑”。这个大脑基于大语言模型,但又不止于此。它懂得如何检索信息,如何规划步骤,最关键的是,它能写代码去调用“游乐场”里那些工具来完成任务。它不是跟你聊天,它是直接上手干活。

效果怎么样?论文里的数据很亮眼。在数据库问答(LAB-Bench DbQA)上,74.4% 的准确率,跟人类专家(74.7%)打个平手。在序列分析(SeqQA)上,81.9% 的准确率,甚至把人类专家(78.8%)甩在了后面。他们还扔给它 8 个真实的科研任务,比如分析几百份可穿戴设备数据、处理几十万个单细胞测序数据,结果性能比基础 LLM 提升了 4 倍。

看到这种结果,我的第一反应是:真的假的?我们都知道,基准测试毕竟是封闭问题,有标准答案。真正的科研,一大半时间都在定义问题,以及处理那些教科书上没写的烂摊子。比如,Biomni 能分析 30 个参与者的 458 个可穿戴设备文件,这很酷。但如果其中一个参与者的数据格式错了,或者传感器中途没电了,它能像一个经验丰富的博士后那样,敏锐地发现问题并找到解决方案吗?我对此持保留意见。

所以,这玩意儿能取代“生物医药民工”吗?短期内,别想了。

但它可能是我梦寐以求的终极科研助理。想象一下,我只需要用自然语言下个指令:“嘿,Biomni,把上周跑的那个激酶抑制剂筛选数据里所有活性小于 100nM 的化合物挑出来,做个结构聚类,然后跟 PDB 数据库里所有同靶点(含已知配体)的结构做个对接,顺便帮我设计一下下一步合成的路线。”然后我就去喝咖啡,回来报告就生成了。这场景,想想都觉得带劲。它能把我们从大量重复、繁琐的“操作性”工作中解放出来,让我们专注于真正需要创造力和洞察力的“思考性”工作。

真正的挑战在于,科研充满了“意外”。移液枪头堵了,细胞状态不对,试剂批次有问题,服务器突然宕机……这些充满了人类经验和直觉的“know-how”,AI 能学到吗?

尤其是在湿实验设计上,看到它能设计出经过验证的分子克隆方案,我一边感叹后生可畏,一边默默检查了一下自己的饭碗。

还好,暂时还端得住, 我想是吧。

📜Paper: https://www.biorxiv.org/content/10.1101/2025.05.30.656746v1

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容