导读
PoseBusters 揭示了基于 AI 的分子对接方法在生成物理上可行的构象和泛化能力方面的局限。
- 🧪 基于 AI 的分子对接方法的速度与准确性
- 🔍 物理可行性和泛化能力的评估
- 🛠 PoseBusters 工具包的应用及评估
近年来,基于深度学习的蛋白质-配体对接技术迅速发展,其速度和准确性展现出巨大潜力。但深入分析发现,尽管这些技术在晶体结构的根均方偏差(RMSD)上表现优异,但它们常常生成物理上不合理的分子结构。因此,仅用 RMSD 来评估这些技术是不充分的,尤其是在评估基于深度学习的方法时,还需考虑空间和能量标准。
PoseBusters 是一个使用成熟的化学信息学工具包 RDKit 进行标准质量检查的 Python 包。PoseBusters 通过验证配体的化学和几何一致性,如立体化学、芳香环的平面性、标准键长及蛋白质-配体的碰撞,来检验其物理可行性。只有那些通过这些检查,并预测出接近天然的结合模式的方法,才能被认为是「好的构象」的。
通过 PoseBusters,作者比较了五种基于深度学习的对接方法(DeepDock、DiffDock、EquiBind、TankBind 和 Uni-Mol)和两种成熟的标准对接方法(AutoDock Vina 和 CCDC Gold),包括是否采用分子力学力场的额外后处理预测能量最小化步骤。
研究发现,在物理可行性和泛化能力方面,没有任何一种基于深度学习的方法能超越传统对接工具。此外,分子力学力场补充了深度学习方法所缺失的对接相关物理知识。
基于 DL 的对接方法
研究调查了五种不同的基于 DL 的对接方法:
- DeepDock:基于配体原子距离和结合口袋表面网格的统计潜能。
- DiffDock:在盲对接中使用等变图神经网络的扩散过程。
- EquiBind:也是在盲对接中使用等变图神经网络。
- TankBind:一种用于预测结合口袋中对接的基于三角测量的神经网络方法。
- Uni-Mol:集成口袋等变变换器进行对接。
这些方法各自提供了一种独特的构象预测方式,凸显了基于 DL 技术的多样性。它们在 PDBbind 通用集的子集上进行了训练,DeepDock 使用的是 v2019 版本,其他方法使用的是 v2020 版本。
经典对接方法
作为对比,研究还包括了两种成熟的非 DL 方法:AutoDock Vina 和 Gold。这些方法为评估基于 DL 的方法在预测化学和物理上有效的构象方面的性能提供了基准。
每种方法使用的协议和软件版本在研究的补充材料中有详细说明。值得注意的是,不同方法之间的搜索空间定义各不相同,有些需要定义的结合位点,而有些在整个蛋白上进行盲搜索。
PoseBusters 测试套件
PoseBusters 套件在本研究中至关重要,分为三类:
- 化学有效性和一致性:包括对化学结构表示的检查以及预测和真实配体之间的一致性检查。
- 分子内有效性:侧重于物理可信度的测试,包括键长、角度和内部距离,以及用于构象可信度的能量计算。
- 分子间有效性:评估蛋白质-配体和配体-辅因子之间的相互作用,包括距离和体积重叠测试。
评估标准
评估标准包括预测配体和晶体配体之间最小重原子根均方偏差(RMSD)、覆盖率和序列同一性分析。
研究中使用的数据集
- 训练和验证集:使用了 PDBBind 通用集的不同版本,考虑了序列同一性和分子力学能量最小化等标准。
- Astex 多样化集:PDB 中多样化、高质量的蛋白质-配体复合物集合。
- PoseBusters 基准集:高质量的蛋白质-配体复合物新集合,包含药物样分子,选取了多样性和相关性。
主要结果概览
- 🌊 Astex 多样性集上的结果:基于深度学习(DL-based)的方法在其已训练的复合物上表现良好,但物理合理性有待提高。
- 🐚 PoseBusters 基准集上的结果:所有方法在 PoseBusters 基准集上的表现不如 Astex 多样性集,凸显出泛化能力的重要性。
- ⚙️ 构象对接能量最小化结果:通过额外的能量最小化步骤,可以改善基于深度学习的方法的物理合理性。
Astex 多样性集是评估分子对接方法的常用基准。在这个数据集上,七种方法(包括 AutoDock Vina、Gold、DeepDock 等)的表现通过 RMSD(均方根偏差)覆盖率展现。基于深度学习的方法在这些复合物上的表现预期较好,因为它们大多训练于此。然而,从物理合理性角度考虑,许多基于深度学习的方法的预测表现不尽人意。例如,DiffDock 在 RMSD 上表现出色,但在物理合理性方面则较为逊色。
在 PoseBusters 基准集上,所有方法的表现普遍下降,凸显出方法泛化能力的重要性。在未考虑物理合理性的情况下,传统方法如 Gold 和 AutoDock Vina 的表现依旧优异。然而,基于深度学习的方法在物理合理性方面表现不佳,特别是在预测立体化学和正确的键长方面。
进一步的分析显示,对基于深度学习的方法生成的构象进行额外的分子对接能量最小化处理,可以提高其物理合理性。这表明尽管基于深度学习的方法在初始预测中可能存在缺陷,但通过后处理步骤,它们的输出可以被优化,从而在实际应用中更为有效。
图表一:对接方法的比较性能分析
该图表展示了在两个测试集上各种对接方法的比较性能。选择了 Astex 多样性集(包含 85 个案例)作为易于测试的集合,其中包括多个经五种基于深度学习(DL)的方法训练的复合物。
而 PoseBusters 基准测试集(包含 308 个案例)则作为难度较高的测试集,因为其中的复合物均未经任何测试方法训练。图中条纹部分展示了每种方法预测结果中均方根偏差(RMSD)在 2Å 以内的比例,实心部分则展示了同时具有有效几何结构和能量的预测结果,即通过所有 PoseBusters 测试且被视为「PB-有效」的。
从 Astex 多样性集的结合模式 RMSD 来看(条纹蓝绿色部分),DiffDock 在传统方法中表现突出。然而,在同时考虑物理合理性(实心蓝绿色部分)或面对 PoseBusters 基准测试集(珊瑚色部分)时,AutoDock Vina 和 Gold 在所有基于 DL 的方法中表现最佳。
图表二:Astex 多样性数据集上 TankBind 预测的瀑布图
此图表展示了 TankBind 预测在 Astex 多样性数据集上的筛选效果,以 PoseBusters 测试作为评估标准。
PoseBusters 测试套件在下文表 4 中有详细描述。最左侧的虚线柱代表测试集中的复合物总数。红色柱体展示了随着测试增加,从左至右预测失败的数量增加。最右侧的实心柱体代表通过所有测试的预测数量,即被认为是「PB-有效」的预测。
在 Astex 多样性集的 85 个测试案例中,有 50 个(占 59%)的预测 RMSD 在 2Å 以内,而 5 个(占 5.9%)通过了所有测试。
图表三:PoseBusters 能够检测到的失败模式示例
该图展示了 PoseBusters 能检测到的不同失败模式的实例。
左侧为预测结果,显示为白色碳原子,而右侧为晶体结构,展示为青色碳原子。氧原子呈红色,氮原子为深蓝色,氯原子为绿色。
虽然大多数展示的预测 RMSD 在 2Å 以内,但从物理角度来看它们是无效的。
图表四:基于 PoseBusters 基准测试集
此图表显示了在 PoseBusters 基准测试集上各种对接方法的比较性能,这些测试集按照与 PDBBind 通用集 v2020 所有链的最大序列同一性进行分层。
条纹柱体展示了每种方法中具有 2Å 内 RMSD 的预测比例,实心柱体展示了此外通过所有 PoseBusters 测试的预测,因此被认为是 PB-有效的。
基于 DL 的方法在与其训练集相似的蛋白质上表现更佳。
图表五:对接方法在 PoseBusters 基准测试集上的比较性能
该图表展示了在考虑配体的后对接能量最小化时,各种对接方法在 PoseBusters 基准测试集上的比较性能。
条纹柱体显示了每种方法中具有晶体构象 2Å 内 RMSD 的预测比例,实心柱体显示了此外通过所有 PoseBusters 测试的预测,因此被认为是 PB-有效的。后对接能量最小化显著提高了基于 DL 方法预测的相对物理合理性。
这表明力场包含了 DL 方法缺失的对接相关物理信息。
图表六:后对接能量最小化修复的预测示例
此图为后对接能量最小化过程中修复的一个预测示例。
Uni-Mol 的预测结果(2.0 Å)以白色显示,优化后的预测(1.1 Å)以粉色显示,而参考的晶体配体则以浅蓝色表示。
可以注意到,在优化过程中芳香环被压平,最左侧的键长度也被缩短,使得预测通过了所有 PoseBusters 的检查。
表格 1:深度学习对接方法的精选案例
表格 2:训练深度学习对接方法的数据集选择
阐述了这五种基于机器学习的对接方法所用的训练数据集。这些方法都是在 PDBBind 2020 通用集的子集上接受训练的。
表格 3:应用对接方法的搜索空间介绍
表格 4:PoseBusters 测试套件的检查描述
讨论
- 🧬 对比传统方法和基于 DL 的方法
- 📊 强调物理可行性和构象根均方偏差(RMSD)的重要性
- 🛠️ 揭示基于 DL 的方法的局限性
PoseBusters 测试套件的目的是识别由蛋白质-配体分子对接和分子生成方法预测的化学不一致和物理上不可行的配体构象。应用该套件于七种不同对接方法的输出,包括五种当前基于 DL 的方法(DeepDock、DiffDock、EquiBind、TankBind 和 Uni-Mol)及两种标准方法(AutoDock Vina 和 Gold),结果发现在考虑物理可行性和 RMSD 时,没有 DL 方法能超越传统方法。这说明在评估对接工具时,必须考虑物理可行性,以免基于 RMSD 的度量表现良好,却预测出物理上不可行的配体构象。
PoseBusters 测试套件中的个别测试凸显了一些对接相关的失败模式。例如,Uni-Mol 预测了非标准的键长,而 TankBind 造成了配体内部冲突。识别这些失败模式对于开发者改进结合模式预测方法和提高预测的准确性和现实性至关重要。
此外,与传统方法不同,基于 DL 的方法在新数据上的泛化能力较弱。这些方法在 PoseBusters 基准测试集上整体表现不佳,在序列同一性较低的 PoseBusters 子集上容易过拟合。我们对序列同一性低于 30%的靶标分析发现,几乎所有基于 DL 的方法都未能在 2 Å 阈值内生成物理上有效的构象。
通常用于构建基于 DL 对接模型的训练-测试方法是基于时间的,例如,用特定日期前发布的复合物进行训练,之后发布的进行测试。基于我们的结果,我们认为这种方法不足以测试对新靶标的泛化能力,训练和测试中蛋白质的序列同一性必须被考虑。
即使在进行配体的能量最小化步骤后,表现最佳的基于 DL 的方法 DiffDock 也未能超越传统方法如 Gold 和 AutoDock Vina。这表明,在力场中编码的某些关键化学和物理方面可能缺失于深度学习模型中。
PoseBusters 测试套件提供了一个新标准,PB 有效性,超越了传统的「RMSD」。
参考资料:
Buttenschoen, M., Morris, G. M., & Deane, C. M. (2024). PoseBusters: AI-based docking Methods fail to generate physically valid poses or generalise to novel sequences. Chemical Science. https://doi.org/10.1039/d3sc04185a
Data and code: https://github.com/maabuu/posebusters
PDF Download: https://is.gd/nsG1sG
关注我,记得标星哦~