文章信息: 2025 ICLR , 腾讯 AI4S团队
代码:https://github.com/TencentAI4S/IgGM
1 引言
1、现有的 co-design 方法依赖于实验测定的抗原-抗体复合物结构和对已知抗体的改造,但是并不适用于特殊的全新抗原,如图 Fig1B。IgGM 是一种生成模型,可同时执行抗体序列和结构的 co-design 。整个过程 Fig 2 所示。IgGM 采用多级网络架构。它首先利用预先训练的蛋白质语言模型来提取序列的进化特征。然后,用特征编码器研究抗原和抗体之间的相互作用。最后,预测模块输出抗体的结构和序列。IgGM 利用序列和结构之间的相互作用来生成准确的抗体设计,即使只有 Framework 区域的部分序列可用。
2、IgGM 擅长生成 CDR 区域和它们的结构,并将生成的结构 dock 到相应的抗原表位。它有多种应用场景,包括预测抗原-抗体复合物,设计抗体的 HCDR3 和多重 CDR 区域,也可以扩展到纳米抗体
3、Fig2 描述了模型的输入数据 (sT , xT ) 以及相应的预测结果 (s0, x0)。一致性模型能够生成不同噪声水平的抗体序列和结构,展示了从噪声输入到明确定义的抗体结构的逐步细化
2 背景
2.1 前提
由于 framework 对抗原-抗体的结合影响相对较小,之前的抗体设计问题是选择一个固定 framework 区域去设计可以特异的结合抗原 CDR 。但是,当遇到一个全新的抗原时,framework 区域也都无法预先设定。IgGM考虑了结合过程中的结构变化,可以在不依赖实验结构的条件下设计整个抗体结构。考虑到 framework 区域主要提供支撑作用,一些序列具有较好的成药性,所以无需设计全新的 framework 序列,所以文章还是主要聚焦CDR序列的设计
2.2 问题设定
整个 design 问题设定可以简化为:给定抗原结构和序列和抗体 framework序列,CDRs 序列和整体抗体结构的设计
3 方法
第 3.1 节中讨论 denoisng 网络架构,然后在第 3.2 节中讨论 IgGM 的训练方法和目标,最后,在第 3.3 节中讨论采样方法。
3.1 denoisng 网络架构
1、补充 pre-trained 概念:模型在大量蛋白质序列数据(如UniProt、PDB数据库)上进行无监督或自监督学习,捕获序列的通用特征。常见的预训练方法包括:(1)Masked Language Modeling:随机掩盖部分氨基酸,让模型预测被掩盖的部分,类似于BERT的训练方式;(2)Autoregressive Modeling:预测序列中的下一个氨基酸,类似于GPT的训练方式
2、整个的网络结构如 Fig3 所示,包含一个 pre-trained 蛋白语言模型,一个多层级的feature encoder 以及一个序列和结构设计模块。给定一个抗原结构和一个初始化采样的抗体序列,pre-trained 蛋白语言模型会首先提取序列的特征,包括蛋白质的进化信息。这些特征信息会被一个特征编码器(Sgformer)融合,一个序列和结构设计模块(prediction module)会生成结合抗原的抗体序列和结构。
从蛋白质语言模型中提取特征。 受到预训练语言模型在自然语言处理中成功的启发,文章采用了预训练的蛋白质语言模型作为 特征提取器。文章选择 ESM-PPI 作为序列特征提取器,因为它可以处理链间关系。ESM-PPI 是 ESM2 模型的扩展,该模型已被进一步 refined 以提高其在捕获多链蛋白质复合物的结构和功能特征方面的性能。抗原和扰动的抗体数据由 pre-trained language model (PLM) 处理,最后一层的特征被精心提取,作为特征编码器的输入。为了保持学习特征的完整性并节省计算资源,文章在整个过程中将 PLM 的参数保持在冻结状态。
多级特征编码器。为了利用不同特征的交互,文章用了多层特征编码器。这种方法使模型能够理解构成抗体结构的不同链。文章将特定于链的表示合并到预训练语言模型 (PLM) 的输出特征中。此外,为了解决抗原表位的关键方面,文章用强调抗体和抗原之间相互作用的专门表示来增强抗原特征集。采用结构编码器为模型提供了一种识别单个氨基酸精确位置的方法。随后,这些提取的特征被输入到由 16 个块组成的 Sgformer 中,用于进一步的特征融合和编码。在此阶段提取的序列特征对于随后从扰动中恢复原始序列至关重要。
序列和结构设计模块。IgGM 采用 8 层 Predict 模块,如Fig6 所示。Predict 模块利用不变点注意来优化结构,同时输出设计的序列。由于 Predict 模块的不变性,这确保了模型的预测保持一致,无论抗体在空间中的方向或位置如何。Predict 模块充分利用了 Sgformer 模块学习的序列特征和成对表示,同时还将从初始采样中获得的结构作为输入。通过将这些特征与不变的点注意力机制集成,Predict 模块能够迭代细化氨基酸的坐标,最终揭示抗体三维结构的精确空间排列。
链间特征嵌入模块和结构编码器。IgGM 利用两个组分来利用不同链的不同特征和表位信息,如 Fig3 所示。链间特征嵌入模块整合了氨基酸的位置信息和链间信息以融合特征,从而捕获了链的不同位置特征,同时也获得了链特异性特征。Structure Encoder 主要编码蛋白质结构;该模块利用距离信息来推导出氨基酸对之间的空间特征,并通过离散化过程将它们转换为特征。为了有效地利用表位信息,文章实施了一种专门的处理方法。具体来说,文章将序列表位和空间接触信息分别编码为 Single 表示和 Pair 表示,以促进表位附近结构的有效生成。如图所示
3.2 训练细节
补充蒸馏(Distillation)概念:蒸馏是一种模型压缩和优化技术,旨在将一个复杂的大模型(通常称为教师模型)的知识迁移到一个更小、更高效的模型(称为学生模型),以保留大模型的性能,同时降低计算和存储需求
补充消融(Ablation)概念:消融研究(Ablation Study)是一种实验方法,用于评估模型中各个组成部分(例如层、模块、超参数、数据等)的重要性,通过逐一移除或修改某些部分,观察对模型性能的影响。
1、文章使用蒸馏(distillation)方法在结构数据集上训练模型,以训练一致性(consistency)模型。首先,预先训练一个扩散(diffusion)模型,该模型由两个阶段组成。消融(Ablation)研究(附录 E)表明,这种两阶段训练方法对于模型的成功训练至关重要。
在第一阶段,文章专注于训练结构组件,同时保留原始序列的信息,特别是通过执行仅用于结构预测的训练任务。在训练过程中,文章从数据集{s, x}中采样一对抗原-抗体复合物 x ,并在不同的时间步长添加噪声。文章随机选择一个时间步 t 来引入噪声,从而得到 xt。
然后训练模型 D 以恢复整体抗体结构。文章的目标是确保恢复的结构与真实结构非常相似。对于蛋白质结构,文章利用了组合 loss 函数。下面提供了简单的介绍,更详细的信息请参考附录 D。总体 Loss 如下:
𝓛_geo:结构几何损失(提供对距离/角度的监督)
𝓛_Frame:结构帧损失(frame-based loss,监督整个结构恢复)
𝓛_iFrame:binding site 结构帧损失(对关键位点如抗原结合区域结构的专注)
𝓛_viol:约束/违规损失(例如原子间碰撞、键长等结构合理性问题)
在这里,Lgeo 旨在在后续堆栈中提供更直接的监督。四个辅助头,作为前馈层实现,被添加到最终对特征的顶部,以预测残基间的距离和角度,如 trRosetta 中所述(Yang等人,2020 年)。正如 RFDiffusion 中提出的那样,术语 LFrame 旨在在预测模块中提供直接监督以恢复抗体结构(Watson et al., 2023),文章将其扩展到多链场景作为 LiFrame,以增强模型对结合位点结构稳定性的关注。公式可以表示如下:
其中 i 表示结构模块的第 i 层的输出,而 γ 可以增加后续层的权重。术语 Lviol 用作惩罚项,以纠正不正确的键长、键角和空间冲突,如 AlphaFold-Multimer 中引入的那样(Evans等人,2021 年)。值得注意的是,文章不会惩罚重链中最后一个残基和轻链中第一个残基之间的键长和角度,因为它们之间没有肽键
接下来,文章进入训练的第二阶段,通过专注于序列设计来扩展初始阶段奠定的基础。使用以下目标对模型进行训练:
在这里,Lsrcv 旨在监督模型使用交叉熵损失函数恢复氨基酸序列。此损失函数鼓励模型预测设计序列中每个位置的正确氨基酸概率,从而提高序列设计的整体性能。值得注意的是,在第二阶段的训练中,文章采用了混合训练的方法。在模型训练过程中,对于序列,为模型分配了 4 : 2 : 2 : 2 的概率,以便模型设计 CDR H3、CDR H 和所有 CDR,因为在重链 CDR 中观察到的可变性更大。消融研究(附录 E)表明,这种方法有效地增强了 IgGM 的性能,并使模型具备了设计各种区域的能力, 例如预测所有 CDR 区域的结构和设计序列。完成扩散模型训练后,文章采用蒸馏训练来获得最终的一致性模型。遵循 Song 等人(2023 年)的训练方法,旨在最大限度地减少蒸馏损失:
3.3 直接生成抗体
如算法 1 所示,在设计针对特定抗原的抗体时,首先从 20 个标准氨基酸中随机取样一种氨基酸作为初始氨基酸。然后,文章从高斯分布中采样平移坐标,从标准 SO(3) 组中采样初始旋转。这些初始变量随后使用经过训练的模型进行采样和生成。由于一致性模型的特点,它能够从不同时间点恢复真实数据。因此,也可以替换初始坐标,例如,通过使用 AlphaFold3 等结构预测工具来初始化结构,从而实现更高质量的抗体生成。在生成过程中,一致性模型的优势使 IgGM 既可以一步生成,也可以通过多步采样进行优化,以提高生成结果的稳定性。在一步生成采样过程中,以序列和结构共生成举例,一旦从噪音中获得了初始的序列和结构,模型可以产生最终的序列和结构。作为对比,多步生成采样可以生成更稳定的序列和结构。Table4 显示了一步生成和多步生成结果差异的对比
4 实验
1、使用 SAbDab 数据库构建了文章的训练、验证和测试集,按照 Jumper 方法划分数据集的比例。删除了2023年下半年与训练集抗体序列高度相似的抗体,以构建测试集,最终形成了 60 个抗体 (SAb-23H2-Ab) 和一个包含 27 个纳米抗体 (SAb-23H2-Nano) 的测试集
2、由于 AlphaFold 3 的限制,每个例子生成 5 个样本,以确保公平的比较
4.1 复合物结构预测
1、复合物结构预测包括给定抗体和抗原的序列预测复合物的结构。IgGM 可以在不需要序列设计的前提下预测复合物的结构。 按照 tFold-Ag 的评估标准,使用 TM-Score , DockQ (DockQ> 0.23 认为成功)来评估复合物预测结果
2、在 SAb23H2 测试集上的结构预测性能,比较了三种方法:抗体结构预测方法 IgFold 和 tFold-Ag,以及最新的蛋白质预测方法 AlphaFold 3,以及抗体设计方法 dyMEAN。由于 IgFold 只支持预测抗体的结构,文章使用了 HDock 来 dock 获得抗原抗体复合物的结构。对于 dyMEAN 和 IgGM,使用抗体序列作为输入,在给定抗原时直接预测抗原-抗体复合物的结构
3、Table1 所示,在抗体结构预测项目上,IgGM 超过了 使用模版进行初始化的 dyMEAN。 尽管与专门的结构预测方法相比存在差距,总体非常接近。在 Dock 性能上,IgGM 超过了其他结构预测方法和抗体设计方法,证明了 IgGM 可以获得高水平的 docking 表现。此外,它在 iRMS 和 LRMS 上的准确性有所提高,成功率为 0.4667,明显高于 dyMEAN 的 0.067。这表明 IgGM 能够有效地捕获抗原和抗体之间的相互作用。当使用 AlphaFold 3 预测的结构作为 IgGM 的初始输入而不是随机初始化的结构时,IgGM 在所有指标上都表现出改善的性能,特别是在 docking 相关的指标上
4、Fig9 所示,对于 AlphaFold3 预测不准的结构,IgGM 可以进行修正生成更合适的结构
4.2 特异性抗原的 de novo 抗体设计
1、采用了两个流程来评估不同的方法。第一个流程与评估 dyMEAN 的方法一致(结构预测->docking->CDR生成->side-chain packing)。对于给定的抗体序列,先使用 IgFold 进行抗体结构预测,使用 HDock 与抗原 docking,然后用设计方法生成 CDR;第二个流程使用 AlphaFold3 进行抗原、抗体复合物结构预测,当天然抗原结构存在时,与预测抗原结构进行比对,并替代预测抗原结构,确保不影响后续评估
2、在抗体设计方面,文章评估了多种方法,包括 MEAN(使用图神经网络同时生成 CDR H3 的序列和结构),DiffAb(使用 diffusion 模型生成抗体 CDR 区域的序列和结构),dyMEAN(使用 end-to-end 的模型进行抗体设计,通过使用模版允许使用新的结构)
3、Table2 所示,MEAN 只能设计 HCDR3 区域,DfifAb、dyMEAN 和 IgGM 能同时设计抗体重链和轻链的所有 6 个 CDR 区域。IgGM 在几乎所有指标上都优于其他方法,包括序列恢复率和 docking 位置的准确性
4、IgGM 是唯一 iRMS 低于 8 ,LRMS 低于 20 ,同时实现 43.3% 的 docking 成功率
Amino Acid Recovery(AAR):预测结构中的氨基酸是否被正确还原(恢复)为目标序列的准确度指标
4.3 纳米抗体的结构预测和 de novo 设计
1、文章使用 SAb-2023H2-Nano 数据集评估了 IgGM 在预测纳米抗体结构方面的性能,将其与 DiffAb 进行了比较,并使用 AlphaFold 3 预测的结构作为初始化
2、Table3 所示,在纳米抗体复合物的结构预测中,与传统抗体相比,纳米抗体结构相关指标显示出整体的改善,这是因为纳米抗体的结构简单由单链组成。但是在 docking 相关的指标,纳米抗体略弱于抗体。纳米抗体结合模式更灵活,使得正确结合位置的预测变得复杂
5 总结
1、IgGM 是一种用于抗体设计的生成模型,它利用一致性模型来联合设计 CDR 序列和整个抗体结构
2、IgGM 考虑整个抗体,只需要靶抗原和抗体框架序列。通过整合结构数据,IgGM 提高了特异性和质量,从而提高了预测结合位点的成功率