DBPP-Predictor: 新型药物相似性评分



导读

  • DBPP-Predictor 通过整合物理化学和 ADMET 属性,提出了一种新型的预测策略。
  • 在外部验证集上,DBPP-Predictor 展现出卓越的泛化能力,其 AUC 值介于 0.817 至 0.913 之间。

评估化学药物的类似性对于挑选高质量的药物候选物极为重要,它有助于避免或降低不必要的生物学和临床试验成本。一个高品质的药物候选物应当具有优良的药物类似性属性,包括药理活性、合适的理化性质和 ADMET 属性。鉴于此,研究者提出了基于计算机的化学药物类似性预测方法。尽管面临诸多挑战,但已发展出多种预测模型。

然而,这些模型通常存在样本依赖性和解释性差的问题。在这项研究中,研究者开发了一种名为 DBPP-Predictor 的新策略,通过整合物理化学和 ADMET 属性来预测化学药物的类似性。

研究结果表明,DBPP-Predictor 在外部验证集上表现出良好的泛化能力,AUC 值在 0.817 至 0.913 之间。在应用可行性方面,DBPP-Predictor 不仅在不同数据集上展现了一致而合理的评分性能,还能够指导结构优化。

此外,该工具为药物类似性评估提供了新的视角,与现有方法没有显著的线性相关性。研究团队还开发了一款免费的独立软件,允许用户对感兴趣的化合物进行药物类似性预测和属性配置可视化。

数据收集与处理

构建正负数据集

  • 正数据集:FDA 药物(FDA_drug)和全球其他已通过的药物(Worlddrug)。
  • 负数据集:Beker 等研究者建议使用 ZINC 数据库作为“非药物数据集”的理想选择,同时包含 ChEMBL 和 GDB17 数据库中的非药物。

数据处理方式

  • 正负未标记学习(PU 学习):探究数据噪声对结果的影响。
  • 降采样策略:为平衡数据集,执行随机降采样,并进行三轮重复操作。

药物相似性数据的研究

  • 数据准备步骤:将盐类转换为对应的酸或碱、移除混合物和无机物、除去标准化的 SMILES 字符串和重复分子等。

分子特征描述

分子描述符

  • 运用 DescriptaStorus 软件包生成 200 个分子描述符。
  • 分析了特征缩放对描述符表示的影响。

分子指纹

  • 利用 RDKit 软件包生成包括 MACCS、Morgan、AtomPairs、RDK 和 TopoTorsion 在内的五种分子指纹。

分子图的表示

  • 将化合物视作分子图,通过 Deep Graph Library 生成分子图。
  • 使用 RDKit 软件包提取节点和边缘的特性。

药物性质概述

ADMET 和理化性质

  • 这些性质在评估药物相似性时具有关键作用。
  • 基于属性的药物相似性评估方法。

药物属性档案

  • 综合了与药物相似性密切相关的特性。
  • 通过 γ 参数调整属性组合的权重。

机器学习方法

应用算法

  • 逻辑回归(LR):一种简单、可并行、易于理解的经典二分类算法。
  • 支持向量机(SVM):通过各种核函数解决线性不可分的问题。
  • LightGBM:速度更快、内存占用更少、准确度更高的梯度增强框架。

模型的优化和评估

  • 使用 GridSearchCV 工具来优化各个模型的参数。
  • 运用十折交叉验证和外部验证对模型进行评估。

图神经网络方法

采用的模型结构

  • 包括图卷积网络(GCN)、图注意力网络(GAT)、图样本聚合网络(GraphSAGE)和 AttentiveFP 网络。

防止过拟合和资源节约: 实施早停策略,通过贝叶斯优化选取适宜的超参数。

DBPP-Predictor 软件

  • 基于 Tkinter 开发的独立应用软件,提供药物相似性评估和属性简介的可视化功能。
  • 用户界面友好,便于非专业用户操作。

数据集分析与药物模型评估

数据集分析揭示了药物相似性和化学多样性,对药物评估模型的开发具有重要的指导作用。

  • 🧪 化学数据集的采集与整理
  • 🔍 药物相似性和化学多样性的分析
  • 📊 药物评估模型的开发与验证

作者从 ZINC、ChEMBL 和 GDB17 三个数据库中采集了已批准的药物和非药物化合物,用于模型的训练和测试。通过数据预处理,共整理出 5147 种药物,包括 FDA 批准的 2679 种和其他地区批准的 2468 种。此外,作者还从每个数据库中随机选择了 10,000 个分子作为负样本,并利用 PU 学习策略对这些负样本集中的噪声数据进行了分析。

为了深入研究化学空间,研究者对这些数据集进行了主成分分析(PCA)、Tanimoto 相似性分析和 Murcko 骨架分析。分析结果显示,数据在空间中的分布广泛,且具有明显的结构多样性。研究中还检测到 3337 个 Murcko 骨架,体现了高度的化学多样性。

在药物评估模型的开发方面,研究者提出的 DBPP-Predictor 包括六种物理化学和 20 种 ADMET 属性端点,并建立在超过 500 个高质量端点数据之上。分析表明,ADMET 端点在药物相似性评估中具有较高的重要性,有效地判断了化合物的药物相似性。

此外,研究者使用不同类型的分子表征来评估模型,并采用网格搜索和贝叶斯搜索进行了参数优化。通过十折交叉验证,评估了模型的性能。结果显示,DBPP-Predictor 在混合表征策略下表现良好,能有效区分药物和非药物。

为了测试模型的泛化性能,使用了测试集和外部验证集进行了评估。结果显示,DBPP-Predictor 在不同验证集上表现出较强的鲁棒性和优秀的泛化能力。

DBPP-Predictor 还提供了一个独立的软件界面和功能,支持单个分子和批量分子的药物相似性预测。用户可输入标准的 SMILES 字符串进行预测,预测结果将以 CSV 格式保存,并提供了属性档案的可视化模块,方便用户进行优化研究。

图表 1:药物类似性预测基于属性剖析(DBPP-Predictor)示意图

该图展现了药物的理化属性和 ADMET 属性剖析过程。

图表 2:数据集总体相似度热图和分子构架展示

图中 A 部分使用 MACCS 指纹展示了数据集整体的 Tanimoto 相似度热图。B 部分则显示了数据集中频率最高的 150 种分子构架。

图表 3:药物与非药物的理化属性剖析和毒性终点分析

图中 A 部分对药物与非药物(ZINC、ChEMBL 和 GDB17)的理化属性进行了剖析,包括分子量(MW)、脂溶性(logP)和极性表面积(TPSA)。B 部分呈现了四个毒性终点的散点矩阵分析,分别是呼吸毒性(Repro)、遗传毒性(Gene)、肝脏毒性(Hepa)和口服急性毒性(ROA)。

图表 4:模型在不同表征方法下的外部验证集性能

图表 5:五个数据集的药物类似性评分小提琴图及样本依赖性分析

A 部分呈现了 QED 评分。B 部分展示了 GCN 评分。C 部分为 FP 评分。D 部分涉及描述符评分。E 部分为 DBPP 评分。

图 6:展示在真实世界数据集上的 A QED 值,B FP 得分和 C DBPP 得分对比

图 7:药物相似性评估中,展现 A ADMET 得分与 DBPP 得分,B QED 与 DBPP 得分的相关性

图 8:平均生长抑制浓度(Avg. GI50)与 DBPP 得分比较

关于设计化合物的平均 50%生长抑制浓度(Avg. GI50)与 DBPP 得分(11a、11d 和 52b)的比较。Avg. GI50 指的是对 60 种人类癌细胞系的平均 GI50 值

图 9:独立软件 DBPP-Predictor 的界面展示。

用户可以选择预测单个分子或批量分子的药物相似性评估。其可视化功能提供易于理解的属性配置解释

表 1:呈现各数据集中的化合物信息

表 2:基于不同表示的模型的十折交叉验证结果展示

表 3:不同数据集上的 DBPP 得分对比

结论

研究者开发了一款名为 DBPPPredictor 的新型药物相似性评分函数。该函数结合了药物的理化性质与 ADMET(吸收、分布、代谢、排泄和毒性)属性,用于评估化学药物的类药性。DBPPPredictor 融合了深度学习、机器学习技术和多种化学指纹,如 AtomPairs、ECFPs、MACCS 和 Morgan,提升了其在药物研发领域的应用广度和准确性。

DBPPPredictor 利用图神经网络技术,如 GCN、GAT 和 GraphSAGE,进一步提高了药物相似性预测的准确性和效率。在参数设定上,它涵盖了氢键受体(HBA/HBD)数量、分子量(MW)、可旋转键数量(nROT)和拓扑极性表面积(TPSA)等多种化学和生物学参数。这些参数的综合应用使得 DBPPPredictor 能够全面评估药物的类药性,为药物发现和开发提供了一种更准确、高效的评价工具。

创新性

  • DBPP-Predictor 模型中集成了各种属性概况(理化和 ADMET)是一种新颖的方法。与传统模型相比,它可能提供了更全面、更细致的药物样性评估,传统模型可能只关注较窄的属性范围。
  • DBPP-Predictor 提供的独立软件,允许用户预测和可视化化合物的属性概况,是一个独特且实用的工具,增强了研究的可用性和应用性。

参考资料:
  • Gu, Y., Wang, Y., Zhu, K., Li, W., Liu, G., & Tang, Y. (2024). DBPP-Predictor: a novel strategy for prediction of chemical drug-likeness based on property profiles. Journal of Cheminformatics, 16(1). https://doi.org/10.1186/s13321-024-00800-9 IF: 8.6 Q1 B2

  • Data and code: https://github.com/yxgu2353/DBPP-Predictor

— 完 —

点击这里👇关注我,记得标星哦~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359

推荐阅读更多精彩内容