
一帮大模型画分子图画得是挺漂亮,但 ToxiMol 这面照妖镜一亮,才发现它们想真正搞懂化学毒性这回事儿,基本上还处于穿开裆裤的水平。
- ToxiMol 这个基准测试,头一回给那些多模态大模型 (MLLM) 出了道真题,不是让你猜毒性,是让你上手把有毒的分子给修好。
- 结果呢?最牛的选手(比如 Claude 3.7)交上来的卷子,正确率也就 36.6%,说明这技术离能用还差着十万八千里呢。
- 更有意思的是,模型挂科的主要原因,不是画出来的分子奇形怪状或者不顶用,而是在最关键的一步——降低毒性上,它压根儿就没做到。
在药物研发中我们经常会碰到这么一种情况:你手上好不容易淘到一个苗头化合物,活性相当喜人,可惜它身上绑着个“毒性弹头”,要么伤肝,要么损心。咋办?一个老道的药物化学家,这时候会冲上一杯咖啡,盯着那个分子结构图,在脑子里玩“分子乐高”,琢磨着怎么神不知鬼不觉地用一个安全无害的零件,换掉那个惹是生非的家伙,还得保证整个结构不散架,药效和成药性这些基本盘不能给搅和黄了。
现在,有人琢磨着让 AI 来干这力气活儿。于是,ToxiMol 这么个考场就应运而生了。它可不是那种让 AI 做几道选择题,判断一下“有毒/没毒”的幼儿园游戏。不,它直接把 AI 拎起来,扔到了一线药物化学家的工位上:这儿有个有毒的分子结构,我也告诉你它毒在哪儿(比如心脏毒性 hERG),然后给你个指令:“修好它!”
这个“修好”的标准,定得那叫一个严丝合缝,一点不跟你含糊。研究人员攒了一套叫 ToxiEval 的五维评估体系,我瞅着吧,这不就是咱们开新药项目立项会的那套嗑儿么:
- 安全性:新分子那要命的毒性,真的降下来了么?这是头等大事。
- 类药性 (QED):你改完之后,还像个“药”么?别为了安全,把吃饭的家伙都扔了。
- 合成可行性:你画出来的这个分子,咱们地球上的化学家能做出来么?别给我整一个火星科技。
- 利平斯基五规则:分子量、脂溶性这些基础指标,可不能崩盘。
- 结构相似性:不能动大手术,改得面目全非,核心的骨架得给我留着。
必须五条全占,才算你这次“分子排毒”干得漂亮。我觉得这挺公道的,因为在现实里,我们就是这么干的。
结果呢?研究者把市面上能划拉来的 29 个顶尖 MLLM,什么 GPT-4o、Claude 3.7,有一个算一个,全拖过来考了一遍。结果嘛,那叫一个惨不忍睹。就算是拿了第一名的 Claude 3.7 Sonnet,总的成功率也才可怜巴巴的 36.6%。
最有意思的地方,是分析它们到底错在哪儿了。你可能会猜,AI 嘛,是不是画了些化学家看了都得挠头的四不像结构,或者搞出来一些不符合规矩的“大胖子”分子?嘿,还真不是。研究发现,AI 挂科最主要的原因,恰恰是它最根本的任务——降低毒性——没完成。在 hERG 和皮肤致敏性这种测试里,超过四成的失败案例,都是因为它捣鼓出来的新分子,毒性一点没减。
这说明啥?这说明 AI 压根儿就没搞懂这个分子“为什么”有毒。它可能背熟了 SMILES 分子式的语法规则,能照猫画虎地拼出个八九不离十的结构,但它对那个最核心的结构 - 毒性关系(STR),缺少一种化学家的“感觉”,或者说,直觉。
更要命的是,就算 AI 撞大运,偶尔成功把毒性给降下来了,也常常是拿类药性(QED)去换的。这就好比一个二把刀的修理工,跟你说发动机过热的问题他解决了,你一问怎么解决的,他说他把发动机给拆了。问题是没了,车也趴窝了。在药物发现里头,这就是典型的菜鸟操作——为了解决一个问题,顺手给你添了五个新堵。
所以说啊,ToxiMol 这个工作,我觉得价值就体现在这儿。它没跟着瞎起哄,吹 AI 现在有多神,而是像个不苟言笑的老法官,拿出一把冰冷的法槌,“Duang”地一下,告诉你眼下 AI 在严肃的科学问题上,到底是个什么段位。它告诉我们,AI 也许能当个不错的助理,帮你查查资料,画画草图。但要说取代那个盯着分子结构图,能耗上一整天功夫冥思苦想的化学家?那条路,还长着呢。起码现在看,它离《绝命毒师》里的老白,还差着十万八千里。
📜Paper: https://arxiv.org/abs/2406.10912v1 💻Code: https://github.com/DeepYoke/ToxiMol-Benchmark