AlphaFold 3 文章学习

2024年 5月,Google DeepMind 发布的 AlphaFold 3 (AF3) 再次震撼了结构生物学界。如果说 AlphaFold2 解决了“蛋白质折叠”问题,那么 AlphaFold 3 则开启了“生物全分子建模”的新纪元。之后的很多工具,如 IsoDDE 和 Protenix-v2 都是在 AF3 的基础上发展而来,文章早应该仔细学习,在此补上


1 摘要

  1. 全分子覆盖: AF3 不再局限于蛋白质,而是能够预测包含蛋白质、核酸(DNA/RNA)、小分子配体、离子以及修饰残基在内的复杂系统结构
  2. 精度跨越: 在蛋白质-配体(药物设计关键)和蛋白质-核酸交互预测上,AF3 的准确率远超传统的物理对接工具。在抗体-抗原相互作用的预测方面,其准确性也远高于 AlphaFold-Multimer v.2.3
  3. 架构革命: 彻底放弃了 AF2 标志性的 Evoformer 和旋转框架(Frames)结构模块,引入了全新的基于扩散模型(Diffusion-based)的架构,直接在原子坐标空间进行生成

2 Main

  1. 统一建模框架: 过去的方法往往针对特定交互(如蛋白-蛋白或蛋白-DNA)进行专门优化。AF3 在一个统一的神经网络下实现了对 PDB 数据库中几乎所有分子类型的高精度预测(Fig 1a,b)
  2. 性能对比(Fig 1c):
    • 配体预测: 在 PoseBusters 基准测试中,AF3 的对接准确率比传统物理工具高出约 50%
    • 抗体-抗原: 相比 AlphaFold-Multimer v2.3,其预测精度有了质的飞跃
    • 核酸: 在 RNA 结构预测上,性能甚至优于许多专门开发的预测器
  3. 效率提升: 通过引入 Pairformer 模块,AF3 大幅简化了对多序列比对(MSA)的处理逻辑,使得模型对计算资源的分配更加聚焦于残基间的“关系矩阵”

3 AF3 的网络结构

1. 输入阶段 (Input & Embedding)

在架构的最左侧,AF3 接收多样化的输入:

输入数据:包括聚合物序列(蛋白质、DNA、RNA)、配体(小分子)、离子以及共价修饰信息

输入嵌入层 (Input Embedder):通过 3 个区块将这些原始序列和化学结构转化为数学向量

模板与遗传搜索 (Template & Genetic Search):

  • Template Search:寻找已知的同源结构作为参考

  • Genetic Search:生成 MSA,捕捉进化上的协同变异信息

  • Conformer Generation:对于小分子,生成初始的构象信息

2. 核心处理模块 (Evoformer 的进化版)

中间部分是模型的信息加工厂,主要由两个轨道组成:Pair(成对表示)和Single(单序列表示)

  • MSA 模块 (MSA Module):包含 4 个区块,专门处理进化信息,并将其整合进 Pair 表示中

  • 模板模块 (Template Module):包含 2 个区块,将搜索到的已知结构模板信息注入模型

  • Pairformer (48 个区块):这是 AF3 的“引擎”。它取代了 AF2 的 Evoformer,简化了架构但增强了推理能力。它在 Pair 轨道上进行大规模的注意力计算,通过 48 个循环区块深度挖掘原子与原子、残基与残基之间的空间关系

3. 扩散模块 (Diffusion Module) —— AF3 的最大创新

  • 替代了结构模块 (Structure Module):AF2 使用旋转矩阵(Frames)来预测结构,而 AF3 直接在原子坐标上使用扩散过程

  • 工作原理:模型从充满噪声的“原子云”开始,通过多个迭代步骤(图中显示的 Diffusion iterations),逐渐去除噪声,最终确定所有原子(包括蛋白质原子、配体原子、离子等)的精确坐标

  • 优势:这种方式不需要复杂的几何约束(如键角、键长),能更自然地处理不规则的小分子和复杂的化学相互作用

4. 循环与置信度 (Recycling & Confidence)

  • 循环机制 (Recycling):模型会将初步预测的信息重新反馈到 Pairformer 的起点,通过多次循环进一步精炼结构

  • 置信度模块 (Confidence Module):包含 4 个区块。在结构生成的同时,AF3 会输出对该结构的 confidence 分数(ipTM 或 pLDDT) ,判断预测结果是否可靠

4 模型限制

1. 立体化学违规 (Stereochemistry):尽管模型在输入特征中包含了参考结构,但其输出仍存在物理上的不一致性。包括手性错误(Chirality)和原子重叠(Clashes)

2. 幻觉现象 (Hallucinations):由于 AF3 采用了扩散模型 (Diffusion-based model) 架构,它在处理无序区域(Disordered regions)时面临独特挑战,包括产生虚假的结构

3. 动态模拟能力的缺失 (Dynamics):AF3 本质上仍然是一个预测静态结构的模型,无法反映溶液中的动态集成,而且模型倾向于预测 PDB 数据库中常见的静态构象

4. 特定靶点的准确度挑战:抗体-抗原复合物,这类目标的预测仍然极具挑战性。对于抗体,预测质量会随着种子(Seed)数量的增加而显著提升。为了获得高精度结果,通常需要生成大量样本(如 1,000 个种子)并进行筛选,这显著增加了计算成本

5 AF2 和 AF3 的差异对比,及 seeds、samples、oracle 的理解

6 参考文献

Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容