JCIM | 不确定性指导的回归模型准确预测抗 CYP3A4 活性的 IC50 值



今天给大家介绍一篇 2023 年发表在 Journal of Chemical Information and Modeling 上的文章, 标题为:《An Uncertainty-Guided Deep Learning Method Facilitates Rapid Screening of CYP3A4 Inhibitors》。

导读

CYP3A4 是 P450 酶超家族的重要成员,在代谢各类异生物质(包括超过 50%的临床重要药物)中发挥关键作用。在药物批准前评估 CYP3A4 的抑制作用对于避免潜在的药物-药物相互作用和不良药物反应至关重要。尽管开发了多个 CYP 抑制剂预测模型,但筛选 CYP 抑制剂的主要方法仍依赖于实验方法。

现有模型的局限在于它们仅提供确定性的分类结果,而不是精确的抑制强度(例如 IC50),且预测可靠性常常不足。

为应对这一挑战,研究者提出了一个不确定性指导的回归模型,准确预测抗 CYP3A4 活性的 IC50 值。

首先,研究者整理了一个包含 27,045 个化合物的全面 CYP3A4 抑制剂数据集,其中包括 4395 个具有明确 IC50 值的化合物。

其次,通过整合在更大数据集上训练的分类模型的预测,并引入证据不确定性方法来排列预测置信度,研究者获得了一个高精度且可靠的回归模型。

最后,研究者使用证据不确定性值作为可信指标,对内部化合物库进行虚拟筛选。体外实验结果显示,这一新指标显著提高了命中率并减少了高排名化合物中的假阳性。特别是,在以不确定性排名的前 20 种化合物中,15 种被鉴定为新的 CYP3A4 抑制剂,其中三种活性低于 1μM。

数据收集与整理

获取优质数据

  • 数据源: 主要从 PubChem 生物测定和 ChEMBL 数据库获取化学数据。
  • 增加多样性: 为拓宽数据集,加入了来自不同 AID 源的额外数据集。
  • 数据标注: 将每个样本归类为“活性”,“非活性”或“不确定”,仅关注活性和非活性化合物以保持一致性。
  • 标准化: 所有 SMILES 都进行了标准化,确保数据集的统一性。

解决数据冲突

  • 重复处理: 对于活性标签不同的化合物等数据冲突,通过去重和活性校准仔细解决。
  • IC50 值校准: 对于在不同实验组 IC50 值有差异的化合物,采用贪婪算法和均值差异计算执行详细的校准过程。

结果

  • 经过严格处理后,最终数据集包括 27,045 种化合物,其中 4,395 种具有明确的 IC50 值。

模型构建与优化

分子表征

  • 选择合适的工具: 使用 PaDEL 软件包和 RDKit 评估了 15 种类型的分子指纹。
  • 指纹耦合: 为提高模型性能,采用了基于诸如 Group-Lasso 和 Pearson 相关系数的算法的各种指纹耦合方法。

模型架构

  • 组件: 模型包括一个分类模块、一个回归模块和一个证据层。
  • 功能: 每个模块在特征提取和预测中发挥着独特的作用,利用卷积和全连接块。
  • 不确定性估计: 包含了一个基于证据学习的证据层,用于估计预测中的不确定性。

模型优化

  • 数据集划分: 将回归数据集划分为训练集、验证集和测试集。
  • 超参数调优: 进行了网格搜索以优化超参数。

模型评估

  • 成功指标: 使用了 ROC-AUC、准确率、精确度和均方根误差等多种指标来评估模型性能。
  • 独立测试: 使用 880 种化合物的独立数据集进行了无偏评估。

CYP3A4 抑制活性测定

  • 程序: 使用特定底物和酮康唑作为对照,评估 CYP3A4 抑制作用。
  • 分析: 通过非线性回归分析计算 IC50 值。

分子对接

  • 准备: 利用各种软件工具对配体和蛋白结构进行了优化和准备。
  • 对接过程: 使用 AutoDock Vina 进行分子对接,专注于活性位点。

分子动力学模拟

  • 模拟设置: 将蛋白-配体复合物溶解、中和,并进行能量最小化和平衡步骤。
  • 模拟参数: 为了准确模拟,仔细设置了温度、压力和静电相互作用等多种参数。
  • 分析: 轨迹分析包括 RMSD 计算和聚类分析。

主要结果总结

通过不确定性引导的回归模型,准确预测 CYP3A4 抑制活性,提高药物设计的指导性。

  • 🧬 CYP3A4 抑制剂的全面数据集
  • 📈 基于分类增强的回归模型
  • 🔍 不确定性增强模型性能
  • 🧪 不确定性引导的虚拟筛选和实验验证

首先,收集了全面的 CYP3A4 抑制剂数据集,包括 27045 种化合物,其中 4395 种化合物具有 IC50 值。通过分析这些化合物的物理化学性质和结构,发现强抑制剂与活性和非活性化合物在分子量、氢键受体数量和 MolLogP 值等方面显著不同。

接下来,构建了一个基于分类增强的回归深度学习模型。通过使用多种分子指纹,包括子结构、线性拓扑和环状拓扑指纹,以及耦合指纹,实现了对 IC50 值的高精度预测。进一步地,通过整合分类结果到回归模型中,显著提高了模型的性能。

为了提高预测准确性,研究者引入了不确定性增强方法。通过计算样本的不确定性,可以更准确地估计模型预测的可信度。这种方法在不同的靶标类型上都显示出良好的效果。

最后,利用这个模型进行了不确定性引导的虚拟筛选,并通过实验验证了筛选结果。筛选出的新 CYP3A4 抑制剂,如 4′-甲氧基 2′-羟基喹喔啉-查尔酮(MHQC)、2′,4′-二羟基查尔酮(DHC)和雷洛昔芬(RLX),均显示出较低的 IC50 值。通过分子对接和分子动力学模拟,进一步揭示了这些化合物与 CYP3A4 的结合模式,证实了芳香环和氢键在抑制作用中的重要性。

图 1: CYP3A4 抑制剂数据处理流程

图 2: 增强策略、模型结构与效能评估

图 3: 不同效力化合物的理化特征比较

  • (A) 强效、活性和无效化合物的六项理化特性箱线图。
  • (B) 不同效力化合物(无效、活性、强效抑制剂)的化学结构密度图,分别以蓝色、浅棕色和红色表示。颜色深浅代表特定区域化合物的密度。

图 4: 模型效能展示

  • (A) 测试集上表现最优的回归模型。

图 5: 基于证据不确定性的回归模型分析

  • (A) 测试集上预测置信度与观测准确比例对比。虚线表示理想校准。均值 ±95% 置信区间,n = 10 独立实验。
  • (B) 机会、认知和总不确定性的分布直方图。
  • (C) 测试集上 Q1(前 25%不确定性)与 Q3(后 25%不确定性)数据的绝对误差分布 t 检验。所有 p 值均小于 0.001。
  • (D) 测试数据按递减的总不确定性百分位排序后逐步剔除,计算剩余数据的均方根误差(RMSE,黑线)。箱线图显示不同不确定性百分位下的数据分布。
  • (E) 测试集上不同绝对误差区间的数据百分比。红色、黄色、浅蓝色和蓝色分别表示 0-0.1、0.1-0.2、0.2-0.3 和 ≥0.3 的绝对误差区间。红线显示五个区间每个的样本数量。

图 6: 150 种自主化合物虚拟筛选效果

  • 策略 1:依据预测 pIC50 值排序。
  • 策略 2:依据总不确定性值排序。

图 7: 三种强效抑制剂的实验 IC50、质子化状态与构象

  • (A) 4'甲氧基-2'羟基喹喔啉-查尔酮。

  • (B) 2',4'-二羟基查尔酮。

  • (C) 雷洛昔芬。

    • (左)IC50 曲线图。
    • (中)质子化状态图。

表格 1:模型开发与评估数据集划分

该表格主要介绍了在模型开发和评估过程中的数据集划分情况,包括了分类和回归数据的不同类别。

  • 数据类别:非抑制剂(Noninhibitor)、抑制剂(Inhibitor)
  • 总体数据:训练集(Training)、验证集(Validation)、测试集(Test)

表格 2:超参数设置

表格 3:回归模型及分类-回归组合模型在测试集上的性能

a TOP 指的是性能最佳的两种单一指纹拼接模式。GL 指的是群体套索(Group Lasso)模式下信息量最大的指纹。PCC 指的是皮尔逊相关系数最低特征拼接模式。CL + TOP 指的是分类组合的最佳表现回归模型。最佳结果以粗体标注。

表格 4:策略 3a 下顶级预测的命中率和均方根误差(RMSE)

a 最佳结果以粗体标注。b RMSE 是基于具有 pIC 50 值的数据计算得出。

缺点:

  • 模型的复杂性和可访问性
    • 模型及其实现的复杂性可能限制了非具备高级计算技能的研究人员的可访问性和可用性。
    • 缺乏用户友好的界面或软件包,这可能促进研究社区更广泛地采用和应用。
  • 与现有方法的比较
    • 研究缺乏与现有预测 CYP3A4 抑制剂的最新方法的全面比较。
    • 对于该模型如何优于或增加相比目前使用的传统方法的价值没有进行充分讨论。

改进建议

  • 增强模型可访问性

    • 开发更用户友好的界面或软件实现,以增加模型对更广泛研究人员的可访问性。
    • 提供详细的文档和教程,帮助用户有效地理解和应用模型。
  • 比较分析

    • 包含与当前预测 CYP3A4 抑制剂的最新方法的更全面的比较分析。
    • 突出提出的模型在哪些特定领域提供了相比现有方法的改进或独特优势。

参考资料:
  • Wang, R., Liu, Z., Gong, J., Zhou, Q., Guan, X., & Ge, G. (2023). An Uncertainty-Guided Deep Learning Method Facilitates Rapid Screening of CYP3A4 Inhibitors. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.3c01241

  • Data and code are available from: https://github.com/wangwrx/An-uncertainty-guided-deeplearning-Method-facilitates-rapid-screening-of-CYP3A4inhibitors

  • PDF Download: https://is.gd/dMy3g0

— 完 —

关注我,记得标星哦~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,548评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,497评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,990评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,618评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,618评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,246评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,819评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,725评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,268评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,356评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,488评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,181评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,862评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,331评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,445评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,897评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,500评论 2 359

推荐阅读更多精彩内容