导读
今天给大家介绍一篇 Axrive 上的文章, 标题为:《Benchmarking active learning protocols for ligand binding affinity prediction》。
研究者通过对 TYK2、USP7、D2R、Mpro 四个不同靶标的配体亲和力数据集进行系统评估,展示了主动学习参数和数据集特征对模型性能的影响。
- 📊 对比高斯过程模型和 Chemprop 在不同数据稠密度下的表现
- 🧪 评估初始批量大小和样本选择协议对模型召回率的影响
- 🔍 分析噪声对模型预测能力和探索能力的影响
作者利用四个不同靶标(TYK2, USP7, D2R, Mpro)的配体亲和力数据集,对高斯过程模型和 Chemprop 进行了对比研究。在数据量较大的情况下,两种模型在识别排名靠前配体方面的召回率相近;但在训练数据较少的情况下,高斯过程模型的表现更为出色。特别是在数据集多样性高的条件下,较大的初始批量大小有助于提升两种模型的召回率和整体相关性指标。
然而,在后续周期中,使用 20 或 30 化合物的较小批量大小表现更佳。此外,即使向数据中添加低于一定阈值的高斯噪声,模型仍能有效识别出得分最高的化合物集群。但是,过高的噪声(>1σ)将会削弱模型的预测和利用能力。
亲和力数据集
该研究使用了四个不同蛋白质的公开数据集:酪氨酸激酶 2(TYK2)、多巴胺受体 D2(D2R)、泛素特异性蛋白酶 7(USP7)和 SARS-CoV-2 主蛋白酶(Mpro)。每个数据集包含多种配体及其相应的亲和力数据。这些数据集可在 GitHub 上获取。
每个数据集的特点
TYK2 数据集:源自 Thompson 等人的工作,包含 10000 个分子,重点研究 TYK2 激酶。这些分子基于氨基嘧啶核心结构。该数据集是 AL 在相对结合自由能(RBFE)计算中定制化应用的一个典范。
USP7 数据集:由 Shen 等人整理,旨在区分活性和非活性抑制剂,包括 4000 多种配体。其多样化的核心骨架和 R-基团使其适合于探索分类模型。
D2R 数据集:作为 ACNet 数据集的一个子集,D2R 数据集提供了机器学习模型在活性悬崖数据上的性能观察,包括各种异质化合物。
Mpro 数据集:作为 COVID Moonshot 项目的一部分,该数据集提供了一组较小但复杂的化合物,凸显了在数据量低的环境中研究 AL 流程的挑战。
主动学习
初始方法
- 最初的化合物批次是随机选择的,反映了计算研究中的常见策略,确保训练数据代表整体数据池。
标签获取
- 研究者没有依赖 RBFE 计算,而是使用了文献中的实验效能值。
训练和选择过程
- AL 过程包括在一部分标记样本上训练模型,并用其预测未标记数据。为标记选择新样本是一种策略性的行为,平衡了探索新化学空间和利用有前景的区域。
采用的策略
- 研究采用了三种主要策略:随机选择、探索(选择预测不确定性高的化合物)和利用(专注于预测效能最高的化合物)。
高斯过程回归和 Chemprop 模型
- 选择高斯过程(GP)回归是因为其提供不确定性估计的能力,以及其之前的成功应用。使用了 Tanimoto 相似性核,因其在比较二进制指纹方面的有效性。
- Chemprop 模型是一种消息传递神经网络,被采用是因为其在捕捉分子的局部和全局结构信息方面的能力。
性能评估
- 使用了多种指标,包括召回率、F1 分数、R2、Spearman ρ 和均方根误差,以评估模型的性能。
重要结果发现
分析了数据集大小对模型性能的影响,涵盖了以下几个方面:
- 📊 高斯过程(GP)与卷积过程(CP)模型在不同数据集上的性能比较。
- 🔍 初始样本选择对主动学习(AL)性能的影响。
- 🧪 化合物多样性对模型训练的影响。
- 🌀 批量大小与噪声对模型性能的影响。
作者对 GP 和 CP 模型在不同大小数据集上的表现进行了对比。使用五折交叉验证方法,其中 20%作为训练集,80%作为测试集。评价指标包括决定系数 R2、斯皮尔曼相关系数 ρ 以及顶部 2%和 5%样本的召回率。为了评估手性分子的影响,比较了在含有手性描述符的 Morgan 指纹和非手性 ECFP8 指纹上训练的 GP 模型。
研究发现,即便训练集只占数据池的一小部分,所有模型在每个数据集上都展现出了预测能力。R2 大于 0.3,斯皮尔曼 ρ 超过 0.5,顶部 5%的召回率在 0.2 以上。这说明,即使在更具挑战性的数据集上,只要有足够的训练数据,也能培养出具有预测性的模型。然而,模型性能随着数据集大小的减少而降低。此外,手性描述符的加入并未显著提升模型性能。
研究还探讨了初始样本选择策略,发现它对后续 AL 周期的轨迹有重要影响。研究比较了三种不同的初始样本选择协议,结果显示,更大的初始批量大小有助于构建预测性更强的模型。同时,评估了不同批量大小的影响,发现较小的批量大小在所有数据集上都优于较大批量。
此外,通过引入高斯噪声,研究了训练数据中噪声对模型性能的影响。结果表明,随着噪声水平的增加,模型的回归性能和召回率迅速下降。尽管如此,模型在噪声环境下仍能识别相关化合物簇。
图 1:四种蛋白靶点的亲和力得分分布和 UMAP 投影
- A: 核密度估计图展示了 TYK2 和 D2R 的 pKi 值,以及 USP7 和 Mpro 的 pIC50 值,反映了不同靶标数据集的亲和力得分分布。
- B: TYK2 数据集的 UMAP 投影,突出显示了聚类中心的化合物。
- C: D2R 数据集的 UMAP 可视化展示。
- D: USP7 数据集的 UMAP 投影,同样突出了聚类中心的化合物。
- E: Mpro 数据集的 UMAP 展示。
图 2:AL 流程概述
- AL 流程从随机选择的化合物批次开始,继而在带标签的子集上进行标注和模型训练。下一批化合物的选择基于模型预测和不确定性,运用探索、开发或随机策略。
图 3:四个靶标数据集上的 GP 和 CP 模型基准测试
- 在 AL 研究中使用的数据集(TYK、2USP7、D2R、Mpro)的 20%用于训练模型,剩余 80%作为测试集以计算指标- A:R2,B:Spearman ρ,C:前 2%化合物的召回率,D:前 5%化合物的召回率。数据集按大小排序,即从大到小(见表 1)。尽管两种模型都显示出强大的预测能力,但 CP 模型对数据集大小更为敏感,手性描述符对模型准确性的提升有限。
图 4:不同 AL 策略的前 2%召回率比较
- 在四个靶标数据集中,'随机-开发'策略先随机选择 60 个化合物,然后转向开发;'随机-探索-开发'在最初的随机选择后,使用预测不确定性选择额外 60 个化合物;'随机-随机-开发'从随机选定的 120 个化合物开始。阴影区域显示了三次重复试验中不同随机种子初始化的方差。基线展示了随机选择时的期望召回率。对于每个数据集,两种模型之间最佳召回策略一致,但不同数据集间存在差异。
图 5:使用 Spearman ρ 评估模型性能,展示 AL 策略下化合物的 UMAP 投影
- A: 使用所有 360 个选定化合物训练的最终模型的 Spearman ρ,强调了‘随机-探索-开发’和‘随机-随机-开发’策略中更大初始批次(120)带来的预测能力提升。
- B: GP 模型选择的 UMAP 投影,显示每个数据集中前 2%的化合物,按获取频率着色。UMAP 揭示了密集簇中化合物的一致性获取和识别稀疏簇的挑战。
- C: CP 模型的 UMAP,展示了类似的化合物获取趋势。总体而言,GP 模型在多次 AL 运行中的化合物选择比 CP 模型一致性更好。
图 6:不同 AL 策略下前 2%召回率比较,侧重于批次大小的差异
- 协议包括:三个探索批次和十二个开发批次,每批 20 个化合物;两个探索和八个开发批次,每批 30 个化合物;一个探索和四个开发批次,每批 60 个化合物;以及一个 60 个样本的探索批次和两个 120 个样本的开发批次。结果显示,所有数据集中召回率随批次大小的减小而提高,无论使用哪种模型。
图 7:分析高斯噪声对 TYK2 数据集上 GP 模型的 AL 成效的影响
- 增加的高斯噪声标准差与 TYK2 pKi 值的标准差成比例,比例因子从 0(无噪声)到 2。A: 不同噪声强度下 pKi 分布的核密度估计图。B: 顶部 2%召回率,展示了噪声增加下的显著下降。C: 展示了噪声增加导致模型预测能力减弱的 Spearman ρ。D: 开发阶段选定化合物的 UMAP 可视化,按在三个不同 AL 迭代中的获取频率着色。UMAP 强调了即使在噪声干扰下,AL 框架依然能一致识别顶级结合化合物簇。
表 1 研究中使用的蛋白靶点数据集特性摘要。表格展示了配体总数、用于训练和推断的结合度量、基于 360 个化合物的一致样本在 AL 中利用的数据百分比,以及数据集中前 5%和前 2%部分的化合物数量。
研究总结
研究者全面评估了各参数对 AL 协议的影响,并基于多种指标进行分析,包括顶级结合剂识别、底层机器学习模型预测质量及化学空间中识别群集的定性分析。研究者通过在不同亲和力数据数据集上模拟 AL 运行,评估 AL 策略不同方面,并捕捉数据集大小与组成相关趋势。
结果表明,某些设计策略有助于设计最有效 AL 协议。例如,TYK2 与 USP7 数据集能持续产生预测模型并实现高召回率,这归因于它们由少量不同骨架和大量替代基组成。化学空间限制在使少量样本能代表大规模库中至关重要。然而,在需要严格筛选化合物满足物理化学性质限制时,组合探索替代基并不总是可行。此时,增加批量大小成为实现 AL 成功的更保守方法。
研究发现,小批量训练可获得最高召回率。但批量减至 30 个样本以下时,性能增益逐渐减少。非常小批量不可取,因会增加 AL 周期数量和整体周转时间。
将噪音加入效能数据中会对 AL 开发能力产生负面影响,尤其当噪音方差等于或大于亲和力值方差时。GP 模型即使在噪音方差超过潜在信号时,也能在化学空间中找到大规模活性区域。相比之下,CP 模型在高噪音水平下失去预测能力。结合 CP 在 D2R 的 AL 运行中表现优于 GP 的事实,GP 在一般情况下表现更好,意味着 CP 可能更敏感于化学空间的局部结构,同时也更易受噪音影响。
使用高斯模型噪音极化了对 RBFE 错误整体性质的理解,因此,在进行 AL-RBFE 运行前进行验证非常重要。这不仅能提供有关随机错误相对于 RBFE 值动态范围的信息,还能揭示某些功能团的系统性偏差,可能改变整个 AL 运行过程。
缺点:
- 方法严谨性:
- 方法流程虽然严谨,但在选择参数和模型配置时可能需要更详细的理由。
- 方法部分的某些方面,如噪声处理和批量大小的选择,可能需要进一步澄清或验证。
- 对噪声效应探索不足:
- 研究对高斯噪声对模型性能影响的探索可能过于简单,没有考虑计算化学中常见的其他类型噪声或错误。
- 系统错误及其对 AL 过程的潜在影响未得到充分讨论。
改进建议
- 增强方法论严谨性:
- 为选择模型、参数和数据集的决策提供更详细的解释,包括这些选择背后的逻辑。
- 考虑实施额外的验证步骤或交叉验证方法,以加强研究的方法论途径。
- 深入分析噪声效应:
- 探索不同类型和水平的噪声对 AL 模型的影响,以便更细致地理解噪声如何影响模型性能。
- 调查系统错误和偏见的潜在效应,并提供解决或缓解这些问题的策略。
参考资料:
Gorantla, R., Kubincová, A., Suutari, B., Cossins, B. P., & Mey, A. S. J. S. (2023). Benchmarking active learning protocols for ligand binding affinity prediction. https://doi.org/10.1101/2023.11.24.568570
Data and code at: https://github.com/meyresearch/ ActiveLearning_BindingAffinity
PDF Download: https://is.gd/KNvcxp