导读
ZeroBind 运用元学习框架,实现了在零样本和少样本情况下预测药物靶标相互作用(DTI)优于现有方法。
今天给大家介绍一篇 2023 年发表在 Nature Communications 上的文章, 标题为:《ZeroBind: a protein-specific zero-shot predictor with subgraph matching for drug-target interactions》。
ZeroBind 通过图神经网络和亚图信息瓶颈模块,提供了一种专门用于预测药物与蛋白质结构互动的元学习框架,适用于新型药物和蛋白质的研究。该框架通过图神经网络学习蛋白质和分子的图嵌入,重点关注蛋白质的结合口袋,而非整体结构,从而提升对结合口袋的识别能力。
此外,ZeroBind 引入了一个弱监督的亚图信息瓶颈(SIB)模块,用于识别蛋白质图中的潜在结合口袋。该框架还包含一个任务自适应自注意模块,用于自动学习个别蛋白质模型的重要性,并进行最终预测。
研究表明,ZeroBind 在新型蛋白质和药物的药物-靶标互动(DTI)预测方面优于现有方法,并且即使是对已知少量结合配体的蛋白质进行微调后,其表现仍然出色。
数据集生成与扩充
BindingDB12 数据库
- 来源:BindingDB12,一个公开数据库,收录了超过 260 万个蛋白质-药物结合亲和力。
- 涵盖范围:包括超过 8000 个蛋白质靶标和 110 万个小分子。
打造基准数据集
- 筛选步骤:基于“单一蛋白质”靶标类型和动力学常数(Ki, Kd, IC50, EC50)进行选择。
- 靶标:专注于人类或类人蛋白靶标。
- 结果:精炼出 150 万个靶标-药物对。
ZeroBind 方法框架
元学习框架
- 核心目标:使用基于元学习的框架来预测 DTIs。
- 关键技术:采用基于梯度的方法,如 MAML(模型无关元学习)和基于度量的方法。
测试集构建
- 直推测试集:包含训练集中不存在相互作用的分子和蛋白质。
- 半归纳测试集:特征为训练集中的蛋白质,但新分子。
- 归纳测试集:完全由新分子和蛋白质组成。
应对数据不平衡
- 策略:使用 Dijkstra 算法进行基于网络的负采样。
- 结果:平衡的数据集提高了预测准确性。
3D 结构整合与图构建
利用 PDB 和 AlphaFold
- 数据来源:RCSB PDB Bank 和 AlphaFold 的预测。
- 用途:在模型中整合 3D 结构和结合口袋信息。
药物和蛋白质图
- 药物图:使用 RDKit 从 SMILES 字符串创建,并编码了各种化学和几何特征。
- 蛋白质图:从 3D 结构形成,节点特征来自 ESM-249 嵌入。
ZeroBind 的基础模型架构
组件
- GNN 模块:用于嵌入分子和蛋白质。
- SIB 模块:识别与结合口袋相对应的预测子图。
- 密集模块:连接蛋白质子图和分子表示。
目标
- 准确评估药物与靶标蛋白质之间的相互作用。
评估 ZeroBind
基准方法
- ZeroBind 的性能与 DeepConv-DTI, GraphDTA, Deeppurpose, AI-bind 和 DrugBAN 进行比较。
评价指标
- 基于不同测试集的 AUROC 和 AUPRC 进行评估。
主要结果
ZeroBind 将药物靶标相互作用预测定义为一个元学习任务。该框架通过元学习解决了在 DTI 预测中未知蛋白质和药物的泛化难题。具体来说,ZeroBind 利用 IB-子图学习法自动发现蛋白质的潜在结合口袋,并采用自注意力机制来评估蛋白质在各个任务中的重要性。此外,ZeroBind 采用网络负采样作为数据增强策略,缓解了注释不平衡的问题。在训练过程中,将 DTIs 分为支持集和查询集,前者用于训练元学习器,后者则用于训练特定任务的模型。ZeroBind 在零样本和少样本场景下的预测性能表现卓越。实验结果表明,在直推、半监督和归纳测试集上,ZeroBind 的表现均超越现有方法。
对 ZeroBind 进行的消融研究表明,其各个组成部分均为模型增添了额外价值。研究发现,元学习策略为处理未见蛋白质和药物的泛化问题提供了强大支持。IB-子图方法增强了模型在表示学习方面的可解释性。ZeroBind 还能预测潜在的针对 SARS-COV-2 蛋白的药物。未来,研究者计划对 ZeroBind 进行进一步优化,考虑更多真实结合口袋信息,以更准确地适应 DTI 问题。
图表 1: ZeroBind 框架
ZeroBind 框架包括以下组成部分:
- a. 网络负采样策略。药物与蛋白质靶标形成的二部图中,方形节点表示蛋白节点,圆形节点表示分子节点。不同类型的节点之间通过边连接,这些边代表已知的药物-靶标相互作用(DTIs)。实线表示已确认的药物-靶标相互作用,虚线表示推测的负相互作用,其最短路径距离不小于 7。
- b. 应用网络负采样策略前的训练集中正样本的比例。
- c. 应用网络负采样策略后的训练集中正样本的比例。
- d. 在给定支持集和查询集的情况下,首先计算支持集的损失 Lsupport,使用支持集更新基模型参数 θ 为特定于任务的参数 θ0。之后,特定于任务的模型利用查询集计算损失 Lquery。在重复 N 次内部步骤后,所有损失将通过加权平均计算。
图表 2: ZeroBind 与基线方法在零样本和少样本情境下的性能比较
- a. 在三个独立测试集上评估 ZeroBind 与基线方法的零样本性能。
- b. 在 775 个蛋白质的测试集上,比较基于蛋白质的 ZeroBind 方法与基线方法的 AUROC。点的颜色表示训练集中蛋白质的数量。
- c. 展示方法性能最佳的蛋白数量。
图表 3: ZeroBind 以弱监督方式探测蛋白质结合口袋
- a. 展示预测的结合口袋与真实结合口袋以及随机选定的结合残基 + 真实结合口袋的个体 DTIs 的 Jaccard 相似性系数分布。
- b. 对比预测的结合口袋与真实结合口袋及其一级邻居和随机选定的结合残基 + 真实结合口袋及其一级邻居的 Jaccard 相似性系数分布。
图表 4: ZeroBind 预测 SARS-COV-2 蛋白的结合药物
- a. 列出 SARS-COV-2 蛋白的前十个药物-靶标结合对。
- b. 展示药物 InChI Key VZBSCWDKCMOJCR-UHFFFAOYSA-N 与 SARS-CoV-2 ORF8 蛋白的药物-靶标结合复合物。图中绿色部分代表蛋白主体,蓝色部分代表结合药物,红色部分显示由残基名称和编号组成的潜在结合位点。
- c. 药物-靶标结合的详细展示。
图表 5: ZeroBind 的数据处理
- a. 展示从蛋白质三维结构构建蛋白质图的过程。连接距离小于 8 埃(Å)的两个残基,而非仅依赖肽键作为边。
表格一:ZeroBind 消融研究的性能评估
表格二:训练集及四个测试集的详细信息
创新性与价值
- ZeroBind 提出了一种新颖的药物-靶点相互作用(DTI)预测方法,尤其在泛化到未见过的蛋白质和药物方面,展现出显著的创新性。
- 将元学习与图神经网络(GNNs)结合,并辅以弱监督子图信息瓶颈(SIB)模块用于潜在结合口袋的识别。
- 该框架在零样本和少样本场景中的有效性,增强了其在新兴疾病的药物发现中的实际应用能力。
缺点:
- 验证和核实
- 验证主要依赖于计算预测,而不是实验数据,这可能无法完全捕捉该方法在实际场景中的有效性。
- 论文缺乏使用独立数据集的外部验证,这对于建立方法的鲁棒性至关重要。
- 解释性和生物相关性
- 虽然 SIB 模块提供了识别潜在结合口袋的新方法,但这些预测的生物相关性和准确性未经彻底审查。
- 方法的解释性,特别是子图与已知结合位点的相关性,需要更详细的分析。
- 技术和方法论关注点
- 研究可以更详细地解释元学习策略及其在 ZeroBind 中的具体适应性。
- 图神经网络架构的选择及其对结果的影响未进行充分讨论,可能忽略了不同 GNN 类型对性能的影响。
改进建议
外部验证和实验核实
- 使用在训练或测试阶段未使用的独立数据集进行外部验证。
- 与实验室合作验证一些计算预测,增加实际验证层面。
提高解释性和生物学洞见
- 深入分析所识别的结合口袋,与已知结合位点进行比较,以验证其生物学相关性。
- 结合案例研究或示例,其中该方法提供了新的生物学见解,展示了实际应用价值。
技术澄清和比较
- 扩展对元学习方法的讨论,阐明其在 ZeroBind 框架中的具体作用和优势。
- 比较不同 GNN 架构的性能影响,提供选择所选架构的最佳性能见解。
参考资料:
Wang, Y., Xia, Y., Yan, J., Yuan, Y., Shen, H.-B., & Pan, X. (2023). ZeroBind: a protein-specific zero-shot predictor with subgraph matching for drug-target interactions. Nature Communications, 14(1). https://doi.org/10.1038/s41467-023-43597-1
Data and code: https://github.com/myprecioushh/ ZeroBind
Webserver: http://www.csbio.sjtu.edu. cn/bioinf/ZeroBind
PDF Download: https://is.gd/kMXEqK