SAIR:AI 制药的数据盛宴,还是画饼充饥?


榴莲忘返AIDD

SAIR 用 520 万个 AI 生成的复合物结构填补了数据鸿沟,但也无情地揭示了:我们离用预测结构精准预测结合力,还有十万八千里。

  1. 海量合成数据: SAIR 数据集通过类似 AlphaFold 3 的共折叠模型,生成了超过 520 万个 PDB 中没有的蛋白 - 配体复合物结构,规模空前。
  2. 预测仍是软肋: 尽管结构质量看起来不错,但无论是传统打分函数还是图神经网络,在预测真实结合亲和力上都表现平平,相关性很低。
  3. 模型泛化难题: 用真实 PDB 结构训练的 AI 模型,在 SAIR 这个“合成世界”里水土不服,暴露了从实验数据到生成数据的“分布偏移”这一致命问题。

在 AI 制药领域,我们对数据的渴望就像沙漠里的旅人对水的渴望一样,尤其是高质量的 3D 结构数据。它是训练那些“聪明的”AI 模型的食粮。

现在,有人端上来一整个大水库——SAIR 数据集。520 万个蛋白 - 配体复合物结构,听起来是不是让人热血沸腾?

这不是从 PDB 数据库里扒下来的陈年旧货,而是全新的、合成的结构。研究者们没去费力地结晶,而是用了一个叫 Boltz-1x 的“黑科技”,一个受 AlphaFold 3 启发的共折叠模型,直接把蛋白和配体“扔”进去,让 AI 预测的结合构象。

这个操作相当大胆。他们绕过了实验解析结构的漫长周期,直接用算力“创造”数据。为了保证这些数据是“全新”的,他们还特意排除了所有 PDB 里已有的结构。

结构质量怎么样?用 PoseBusters 检查下来,97% 都过关了,听起来不错,至少 AI 画出来的构象大体上还算靠谱。但真正的考验来了:这些漂亮的 3D 模型能帮我们预测结合力吗?这才是药物研发里真正值钱的问题。

结果有点……尴尬。

不管是老派的 Vina 打分,还是时髦的 3D CNN 和 GNN 模型,在 SAIR 数据集上预测的亲和力跟实验值之间的相关性(Spearman 系数只有 0.25 左右)低得可怜。这就像你有了一张超高清的地图,但上面的距离标注全是错的。地图再好看,也找不到宝藏。

结构预测的成功,并不意味着我们自动解决了亲和力预测这个更棘手的难题。

更有意思的是,研究者发现,拿 PDB 里的“真家伙”训练出来的模型,一碰到 SAIR 这些“人造肉”,立马就懵了,完全不认识。这就是所谓的“分布偏移”(distribution shift)。

这又我们泼了一盆冷水:我们辛苦训练的 AI 模型,可能只是个在特定考场里表现出色的“刷题高手”,换个考场就原形毕露。从实验结构到生成结构,中间有一道看不见的鸿沟。

所以,SAIR 没能变出预测亲和力的“魔杖”。但它是不是就没用了?当然不是。它像一面镜子,照出了我们当前 AI 模型的短板和盲区,告诉我们必须开发能够适应合成数据的模型。

而且,它还揭示了一个非常酷的现象:同一个蛋白,为了结合不同的配体,口袋的形状可以千变万化——有个例子里,一个蛋白竟然为 345 个不同配体演化出 1000 多种口袋构象。这对于理解蛋白的动态性和柔性,价值巨大。

SAIR 是一项了不起的工程,它给了我们一个巨大的沙盒。但它也响亮地宣告:朋友们,别高兴得太早,真正的硬仗还在后头。

📜Title: SAIR: Enabling deep learning for protein-ligand interactions with a synthetic structural dataset 📜Paper: https://www.biorxiv.org/content/10.1101/2025.06.17.660168v1


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容