导读
结合无监督深度学习和分子动力学模拟,能有效加速药物发现过程。
今天给大家介绍一篇 2023 年发表在 RSC Advances 上的文章, 标题为:《Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro》。
我们知道分子动力学(MD)模拟是药物发现的核心环节,有助于深入了解蛋白质与配体的相互作用。但是,分析大型 MD 数据集依然是一大挑战。现有机器学习解决方案多为监督式,面临数据标注和标准化的问题。
该研究使用了一种无监督深度学习框架,已在刚性蛋白质上进行基准测试,用于研究 SARS-CoV-2 主蛋白酶(Mpro)。研究者对 Mpro 与不同配体进行了 MD 模拟,并精炼数据,聚焦于结合位点残基和稳定蛋白构象的时间帧。筛选出的最优描述符为残基与结合口袋中心的距离。利用此方法,生成了一个局部动态集合,输入到神经网络中,计算不同系统间的 Wasserstein 距离,揭示配体引起的 Mpro 构象差异。
降维处理产生的嵌入图表明了配体引发的动力学变化与结合亲和力之间的相关性。特别是,高亲和力化合物对蛋白质构象的影响更为显著。研究还识别了导致这些差异的关键残基。该发现突显了结合无监督深度学习与 MD 模拟的潜力,可提取重要信息,加速药物发现进程。
方法流程
分子动力学模拟
- 目标:观察 11 种不同配体与 Mpro 的相互作用。
- 过程:对每种配体进行了三次独立模拟,每次持续一微秒,以收集构象状态和动力学的多样化数据。
- 性能:模拟以每天 310 纳秒的速率完成,每次大约需 77 小时。
机器学习驱动的分析
- 深度学习模型:用于通过无监督学习计算 Wasserstein 距离,衡量数据集之间的差异。
- 优势:相较于依赖标记数据的监督学习方法,作者的方法不依赖标记数据,尽管代价是更长的处理时间。
MD 模拟细节
- 蛋白结构:研究了 Mpro 的均聚二聚体半胱氨酸蛋白酶形式,包括未结合(apo)和配体结合形式。
- 活性位点组成:对参与底物结合区域和催化活性的关键残基进行了详细分解。
- PDB 结构:获取和准备模拟所需的结构,包括调整质子化状态和同源建模。
模拟设置
- 软件和参数:使用 GROMACS 2023 进行模拟,详细介绍了从系统中和到生产阶段的步骤。
- 数据收集:强调了捕获和分析轨迹数据的系统方法。
分析和结果
轨迹分析
- 描述符选择:专注于结合位点残基,以有效捕获配体结合效果,同时兼顾计算需求。
- 基于距离的描述符:这个可以有效代表 Mpro 的结构和动态差异。
局部动力学集合(LDE)
- 创建和目的:从选定的 MD 轨迹间隔构建 LDE,以突出稳定构象及其相关动力学。
- 分析技术:采用主成分分析(PCA)识别深入研究的关键时间窗口。
机器学习应用
- Wasserstein 距离计算:解释了如何使用深度神经网络(DNN)计算这一度量,以分析 LDE 的差异。
- LDE 矩阵构成:描述了封装结合位点动力学的高维矩阵。
- ML 分析洞见:通过详细的计算方法揭示了配体结合显著影响的残基。
主要结果及图表
研究比较了 Mpro 在存在与缺乏 11 种抑制剂时的局部构象动力学,揭示了药物结合对其结构稳定性和灵活性的影响。研究者进行了三次 1 毫秒的分子动力学(MD)模拟,监测 Mpro 结构稳定性,并测量了其 Ca 原子的均方根位移(RMSD)。通过残基基于的均方根波动(RMSF)分析,计算了二聚体 Mpro 中各系统链条的 RMSF 值,确认了 Mpro 结构的灵活性。
Kneller 等人的实验研究及其他计算方法的研究进一步突出了 Mpro 结构的异质性及其在药物结合热力学性质中的重要性。RMSF 数据显示两个原子高 RMSF 区域,表明这些区域在系统间波动具有显著差异。
研究者还运用无监督深度学习揭示了 MD 数据中的复杂动态特性,这是传统分析方法如 RMSF 无法发现的。确定了 Mpro 结合位点残基、适当的时间窗口,并通过主成分分析(PCA)选择了框架窗口。此外,深度学习方法提取了蛋白-配体系统的关键特征,发现 PC2 组件与 pIC50 之间的相关性揭示了与配体结合亲和力相关的构象差异。
最后,分析了特定氨基酸对配体诱导动力学的贡献,识别出在结合亲和力最高和最低系统间表现出显著动态差异的特定氨基酸。这些发现与其他研究的独立见解相呼应,深化了对 Mpro 在蛋白-配体相互作用中动力学的理解。
图表 1
- a) MD 轨迹分析:未结合配体(apo-protein)和结合配体(holo-protein)状态下的系统。
- b) 计算方法:追踪每个结合口袋残基的质心与口袋几何中心间的距离变化。
- c) 特征表征:通过局部动力学集合(LDE)展现配体诱导的蛋白质构象变化,即基于短期轨迹集合的距离描述符。
- d) 差异分析:利用深度神经网络近似的函数 fij,基于 Wasserstein 距离 Wij 计算不同系统 LDEs 间的差异。
- e) 数据处理:将 Wasserstein 距离矩阵中的数据点嵌入低维空间,并进行主成分分析(PCA)。
- f) 结果解读:通过函数 gij(xi)探讨特定残基对 LDEs 差异的影响,依靠深度神经网络(DNNs)计算。对比特征性与非特征性轨迹,计算每个残基的距离描述符 di 的平均值。特别是当 di 值在两种轨迹间差异显著时,表明残基受配体影响较大。
图表 2
- a) 结构展示:SARS-CoV-2 Mpro 蛋白的二聚体三维结构。
- b) 结合特点:展示 Mpro 蛋白的结合位点,选定的结合口袋残基以棍状模型标注。
- c) 可视化描述:用球体模型表示结合口袋残基,计算每个选定残基的质心与口袋几何中心(cog)间的距离。
图表 3
- 描述:基于根均方波动(RMSF)平均值,分析蛋白质主链残基在首 1 毫秒 MD 模拟的 12 个系统的单体 A 和单体 B。
图表 4
- 分析:对选定的稳定结构数据进行主成分分析(PCA)绘图。
图表 5
- a) 距离矩阵:用于描述系统对 LDEs 概率分布的 Wasserstein 距离矩阵。较大的 Wasserstein 距离(黄色)指示蛋白质结构和动力学上的显著差异。
- b) 数据点展示:展现距离矩阵的嵌入点及相关系统的化学结构。数据点按照实验绑定亲和力值(pIC50)进行着色,pIC50 为 IC50 的负对数值。IC50 详见表 1(下文表格)。
图表 6
- 相关性分析:探讨主成分 2(PC2)与实验绑定亲和力数据(pIC50)的相关性,采用 Pearson 系数进行量化,系数值为 0.7。
图表 7
- 动力学对比:对选定系统对进行特征动力学分析,并探讨结合位点残基的作用。将系统 i 的短期轨迹分类为特征(高,系统 i 特有)、非特征(低,类似于系统 j)和其他(中),并计算各结合位点残基与口袋中心距离的平均值。a) 高亲和性系统 6M0K 与低亲和性系统 7JYC 间的特征动力学对比。b) 两个高亲和性系统 6M0K 与 6LZE 间的特征动力学分析。
SARS-CoV-2 抑制剂总结分析
表格 1 显示了本研究涉及的 SARS-CoV-2 抑制剂概述。该表格列出了它们的 PDB 结构、分子量(MWs)(单位:g/mol)以及实验测得的结合亲和力(IC50)值(单位:mM)。
表格 2 基于对每种蛋白-配体系统三次分子动力学(MD)模拟的接触分析,列出了关键残基摘要。这些关键的结合口袋残基包括 His41, Met49, Phe40, Leu141, Asn142, Gly143, Ser144, Cys145, His163, His164, Met165, Glu166, Pro168, His172, Arg188, Gln189, Thr190, Gln192。
创新性与价值
- 该研究提出了一种新颖的方法,将无监督深度学习与分子动力学(MD)模拟相结合,专注于研究 SARS-CoV-2 主要蛋白酶(Mpro)和多种配体。
- 研究者的方法在处理大规模 MD 数据集时具有创新性,无需进行监督学习,可能克服了数据标注和标准化等限制。
缺点
- 缺乏与现有方法的比较分析
- 论文未能充分对其方法与现有监督和无监督方法进行基准测试。
- 缺乏比较分析可能引发对方法效果与现有技术相比的疑问。
- 鉴于蛋白质动力学的复杂性,该方法的验证似乎不够充分。
- 由于缺乏关于计算环境和软件参数的详细信息,存在关于可重复性的担忧。
- 集中在单一蛋白质-配体系统的研究可能限制了研究结果的普遍适用性。
- 该研究未涉及该方法对其他蛋白质或配体类型的潜在应用。
改进建议
- 增强比较分析
- 包括与现有监督和无监督学习方法的详细比较,以展示所提出方法的优势。
- 提供案例研究或示例,证明新方法超越传统方法。
- 加强验证和可重复性
- 包括额外的验证研究,可能涉及其他蛋白质-配体系统,以展示该方法的多样性。
- 提供模拟和深度学习算法使用的计算设置和参数的完整细节。
- 扩大研究范围
- 将该方法应用于多种蛋白质和配体,展示其更广泛的适用性。
- 讨论该方法对不同类型分子系统的潜在限制和未来的适应性。
参考资料:
Mustali, J., Yasuda, I., Hirano, Y., Yasuoka, K., Gautieri, A., & Arai, N. (2023). Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro. RSC Advances, 13(48), 34249–34261. https://doi.org/10.1039/d3ra06375e
PDF Download: https://is.gd/YIzAQh