Deep Learning Model for Efficient Protein−Ligand Docking with Implicit Side-Chain Flexibility

题目:具有隐式侧链灵活性的高效蛋白质-配体对接的深度学习模型

计算方法用于药物筛选  计算蛋白质和受体的距离计算

EDM-Dock

摘要:蛋白质-配体对接是基于结构的药物设计的重要工具,其应用范围从虚拟高通量筛选到导联优化的姿态预测。大多数用于姿态预测的对接程序都是针对现有共结晶蛋白质结构的对接进行优化的,而忽略了蛋白质的灵活性。然而,在现实世界的药物设计应用中,蛋白质的灵活性是配体结合过程的基本特征。柔性蛋白-配体对接仍然是计算药物设计的重大挑战。为了应对这一挑战,我们提出了一种基于分子间欧几里得距离矩阵(EDM)预测的柔性蛋白质-配体对接深度学习(DL)模型,使迭代搜索算法的典型使用过时。该模型在蛋白质-配体复合物的大规模数据集上进行训练,并在独立的测试集上进行评估。我们的模型为多种蛋白质和配体结构生成高质量的姿势,并且优于可比的对接方法。

1.研究背景

    药物发现的主要范例是确定作用于疾病靶标的分子。基因组学和结构生物学的重大进展已经确定了数千种尚未具有临床有效调节剂的潜在新靶点。考虑到可能的治疗方法的化学空间约为1060,使用标准的实验室方法寻找候选药物可能是困难和昂贵的因此,计算方法已经常用于药物发现筛选和优化命中。

    分子对接是药物设计中最常用的计算方法之一,用于预测药物靶复合物的结构。这一预测能够表征蛋白质-配体结合,如关键相互作用的识别。由于这些原因,对接被广泛应用于早期药物发现,特别是基于合理结构的药物设计。此外,对接可以应用于虚拟筛选协议,其中筛选大量化合物以寻找潜在的靶标结合。对接也可以应用于逆(或反向)对接,其中一种化合物针对大量潜在靶标进行筛选。这项技术在药物再利用、多药理学和副作用预测方面特别有用。

自20世纪80年代初开始,广泛的分子对接项目已经发展起来。这些程序依赖于各种各样的理论和算法,但大多数都具有相同的基本结构:首先,搜索算法的任务是采样结合位点内配体的潜在构型,通常称为配体姿态。接下来,评分函数评估每个姿势,并尝试将最可能(能量最低)的姿势排在最前面。在搜索算法的流行选择中,随机方法如蒙特卡罗或遗传算法和系统搜索方法通常与碎片相结合还有几种评分函数选项,包括经典力场、经验、基于知识和神经网络(NN)电位。大多数对接程序都遵循这个方案,并且通常针对特定的用例进行定制(例如,蛋白质-配体对接,蛋白质-蛋白质对接等)。

尽管分子对接方法的适用性和多样性广泛,但仍存在一些挑战。其中一个挑战是搜索算法的计算成本。对接程序通常会对数百万种可能的配置进行采样,试图找到原始姿势。这产生了繁重的计算需求,并且经常导致适应对接的刚性受体概念。虽然这种方法创造了停靠的可能性尽管分子对接方法的适用性和多样性广泛,但仍存在一些挑战。其中一个挑战是搜索算法的计算成本。对接程序通常会对数百万种可能的配置进行采样,试图找到原始姿势。这产生了繁重的计算需求,并且经常导致适应对接的刚性受体概念。虽然这种方法创造了停靠的可能性大的化学文库,它忽略了诱导配合效应,已知在蛋白质-配体识别和结合中起关键作用。忽略蛋白质灵活性的简化搜索算法对对接性能有不利影响。因此,仍然存在一些蛋白质系统,其中最先进的对接算法无法生成任何正确的姿势。

图1: 概述模型体系结构和重建过程。深度神经网络能够预测蛋白质-配体的分子间距离。这个距离矩阵被用作配体在结合位点位置的中间表示。在第二阶段,使用距离来重建配体在笛卡尔坐标系中的姿态

在本文中,我们提出了一种新的对接方法,称为EDM-Dock,它试图解决和克服这些挑战。我们的方法利用几何深度学习模型,该模型能够预测蛋白质-配体距离矩阵。这些矩阵可以用来重建主要的配体位姿。通过我们的方法,我们能够完全绕过对搜索算法的需求,显著降低计算成本。通过将蛋白质粗粒化到残基水平,去除了侧链取向的更精细的细节,蛋白质灵活性的挑战隐含地解决了。这项技术已被用于许多不同的方法来模拟蛋白质的灵活性而不牺牲速度。EDM-Dock还具有几个有利的特性,即对蛋白质的平移和旋转的不变性和概率输出(即预测距离和方差),从而实现更高质量的姿势。该模型在大规模数据集上进行训练,并使用两个独立的测试集评估再对接和交叉对接能力。EDM-Dock为多种蛋白质和配体结构产生接近天然的姿势,并且优于同类的对接方法。

相关的工作。分子建模中的深度学习。随着跨学科深度学习的兴起,许多不同的深度学习模型已被应用于化学和分子建模。这些模型的一个主要目的是预测通常难以计算的分子/原子性质。例如,一些预测量子化学性质的DL模型已经被开发出来,这些模型通常需要大量的计算。已经开发出其他模型来预测实验测量的性质,如pKa,  logD,或结合亲和力。深度学习模型的另一个主要用例是设计用于分子模拟的神经网络电位。许多神经网络势已经被开发出来,它们试图用神经网络模拟势能面来取代经典力场。基于dl的力场具有速度和dft级精度等优点,并且适合于粗粒度模型。

    除了这些深度学习的具体应用之外,一些作品还介绍了可以应用于任何分子预测任务的广义分子模型。一种流行且直观的表示深度学习分子的方法是以图的形式。由于这个原因,许多图神经网络(gnn)已经被开发出来用于化学和分子建模的用例。这对于输出依赖构象的任务特别有吸引力,例如神经网络电位。

最近,人们对几何gnn特别感兴趣,它尊重分子的平移、旋转和排列等对称性。在引入这些特殊设计的网络之前,这些对称性的不变性必须通过增广数据的训练来学习,并试图进行推广。这种方法效率非常低,并且不能保证强制执行对称性。在一项工作中,作者描述了旋转等变卷积层,并展示了它们如何改进分子性质预测另一项工作介绍了一种几何信息传递神经网络,该神经网络对平移不变,对旋转和排列等变。在Satorras等人中,作者描述了一个等价图神经网络(EGNN),它对所有E(n)变换都是等价的。

分子对接中的深度学习。评分功能。深度学习在分子对接中的应用可以分为两种主要的方法:重新排序和生成。在重新排序方法中,首先使用传统的对接方法生成一个对接姿态集合。然后,使用深度学习模型代替传统的评分函数,以获得更好的前位排序。一些架构已经应用于这种方法,包括卷积神经网络和图神经网络。这种方法与前一节相关,因为许多用于预测结合亲和力的神经网络电位和模型可以独立于搜索算法来重新排序停靠姿势。在McNutt等人中,他们开发了一种方法,使用他们的CNN评分函数进行蒙特卡罗采样,以便对新的配体姿势进行采样。虽然这些方法已被证明在提高姿势排名方面很有效,但它们并没有解决采样问题。

生成模型。在生成方法中,采用深度学习模型直接生成对接姿态。这种方法的研究较少,去年只开发了几种方法。在Ganea和Huang等人中,作者提出了SE(3)-等变刚性蛋白质-蛋白质对接模型,命名为Equidock。在另一项工作中,同一个研究小组在Equidock方法的基础上开发了Equibind,这是一种蛋白质与配体对接的模型然而,在这项工作中,他们解决了盲对接问题(即将配体与完整的蛋白质结构对接而不指定结合位点)这使得对接任务相当具有挑战性,因此,他们报告的性能低于典型的对接研究鉴于大多数靶标都有已知的、明确的结合位点,将结合位点识别和对接任务分开可能是更好的选择。两个小组通过引入他们自己的盲对接深度学习模型来继续这条发展路线。在TANKBind中,他们使用了一个三角感知网络来预测配体的姿态,而在DiffDock中,他们使用了基于扩散的模型来从噪声分布中迭代地生成姿态。

本文提出的模型属于生成方法,试图完全取代搜索算法。

材料与方法

图1显示EDM-Dock过程的概述。蛋白质和配体结构被编码成图形,并提供给深度学习模型,该模型预测所有蛋白质-配体的距离。然后,蛋白质-配体距离矩阵可以用来完成完整的EDM(包括蛋白质-蛋白质和配体-配体的距离),这反过来又可以用来重建主要的蛋白质-配体构型。

模型。在本节中,我们提出了用于预测蛋白质-配体距离矩阵的深度学习模型。结合位点的蛋白残基是粗粒的,以Cα原子为代表。配体由所有原子表示。S2描述了蛋白质残基和配体原子的初始特征。该模型由两个独立作用于蛋白质和配体表征的嵌入网络和一个预测每对蛋白质-配体嵌入距离的后续网络组成。由于网络和输入特征可以为每个实体独立定制,因此将蛋白质图和配体图的处理分开是有利的。例如,由于我们的方法中使用的蛋白质结构的粗粒度表示,蛋白质特征将表示整个残基,而配体特征表示单个原子。这种分离还可以使用预训练的网络和嵌入。例如,预训练的AlphaFold和ESM嵌入已经证明可以提高许多蛋白质结构预测任务的准确性。在这项工作中,EGNN用于蛋白质和配体嵌入网络,并使用自定义多层感知器(MLP)用于距离预测网络.

等变图神经网络。在本节中,我们将定义EGNN作为蛋白质和配体嵌入网络。这些模型改编自Satorras等人的原创作品29。给定一个带有节点和边的图,EGNN可以定义为一组方程,这些方程等价地更新连续层中的节点特征。每个节点vi与一组节点特征相关联,其中f为特征的个数,以及一组n维坐标(这里n = 3)。每个EGNN层l都具有这些节点特征hl (with)。

总结

在这项研究中,我们提出了EDM-Dock的发展,这是一种新的对接方法,能够为多种蛋白质和结合蛋白质灵活性的配体结构产生高质量的姿势。该模型使用两个独立的等变图神经网络来预测蛋白质与配体的结合位点,并结合多层感知器网络来预测配体原子与结合位点残基之间的距离矩阵。使用距离几何优化和可选的细化步骤,利用距离矩阵重建主要配体位姿。在两个独立的测试集上对该方法进行了严格的评估,包括重新对接和交叉对接任务。并选择GeauxDock再对接和GeauxDock与AutoDock Vina交叉对接两个独立的对接方案进行比较。EDM-Dock在RMSD和成功率方面都表现出优异的表现。此外,我们的方法不需要耗时的搜索算法来枚举许多可能的停靠姿势或侧链构象,从而显著增加了速度和效率。综上所述,这些因素表明深度学习模型能够灵活有效地对接蛋白质-配体。这种方法是一种强大的新范式,将被进一步研究并用于加速现代基于结构的药物发现。


代码可在https://github.com/MatthewMasters/ EDM-Dock上获得。我们的训练数据集在10.5281/ zenodo.7233024。这两个独立的测试集可在http://www.pdbbind.org.cn/casf.php和http://disco.csb上获得。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容