导读
- DBPP-Predictor 通过整合物理化学和 ADMET 属性,提出了一种新型的预测策略。
- 在外部验证集上,DBPP-Predictor 展现出卓越的泛化能力,其 AUC 值介于 0.817 至 0.913 之间。
评估化学药物的类似性对于挑选高质量的药物候选物极为重要,它有助于避免或降低不必要的生物学和临床试验成本。一个高品质的药物候选物应当具有优良的药物类似性属性,包括药理活性、合适的理化性质和 ADMET 属性。鉴于此,研究者提出了基于计算机的化学药物类似性预测方法。尽管面临诸多挑战,但已发展出多种预测模型。
然而,这些模型通常存在样本依赖性和解释性差的问题。在这项研究中,研究者开发了一种名为 DBPP-Predictor 的新策略,通过整合物理化学和 ADMET 属性来预测化学药物的类似性。
研究结果表明,DBPP-Predictor 在外部验证集上表现出良好的泛化能力,AUC 值在 0.817 至 0.913 之间。在应用可行性方面,DBPP-Predictor 不仅在不同数据集上展现了一致而合理的评分性能,还能够指导结构优化。
此外,该工具为药物类似性评估提供了新的视角,与现有方法没有显著的线性相关性。研究团队还开发了一款免费的独立软件,允许用户对感兴趣的化合物进行药物类似性预测和属性配置可视化。
数据收集与处理
构建正负数据集
- 正数据集:FDA 药物(FDA_drug)和全球其他已通过的药物(Worlddrug)。
- 负数据集:Beker 等研究者建议使用 ZINC 数据库作为“非药物数据集”的理想选择,同时包含 ChEMBL 和 GDB17 数据库中的非药物。
数据处理方式
- 正负未标记学习(PU 学习):探究数据噪声对结果的影响。
- 降采样策略:为平衡数据集,执行随机降采样,并进行三轮重复操作。
药物相似性数据的研究
- 数据准备步骤:将盐类转换为对应的酸或碱、移除混合物和无机物、除去标准化的 SMILES 字符串和重复分子等。
分子特征描述
分子描述符
- 运用 DescriptaStorus 软件包生成 200 个分子描述符。
- 分析了特征缩放对描述符表示的影响。
分子指纹
- 利用 RDKit 软件包生成包括 MACCS、Morgan、AtomPairs、RDK 和 TopoTorsion 在内的五种分子指纹。
分子图的表示
- 将化合物视作分子图,通过 Deep Graph Library 生成分子图。
- 使用 RDKit 软件包提取节点和边缘的特性。
药物性质概述
ADMET 和理化性质
- 这些性质在评估药物相似性时具有关键作用。
- 基于属性的药物相似性评估方法。
药物属性档案
- 综合了与药物相似性密切相关的特性。
- 通过 γ 参数调整属性组合的权重。
机器学习方法
应用算法
- 逻辑回归(LR):一种简单、可并行、易于理解的经典二分类算法。
- 支持向量机(SVM):通过各种核函数解决线性不可分的问题。
- LightGBM:速度更快、内存占用更少、准确度更高的梯度增强框架。
模型的优化和评估
- 使用 GridSearchCV 工具来优化各个模型的参数。
- 运用十折交叉验证和外部验证对模型进行评估。
图神经网络方法
采用的模型结构
- 包括图卷积网络(GCN)、图注意力网络(GAT)、图样本聚合网络(GraphSAGE)和 AttentiveFP 网络。
防止过拟合和资源节约: 实施早停策略,通过贝叶斯优化选取适宜的超参数。
DBPP-Predictor 软件
- 基于 Tkinter 开发的独立应用软件,提供药物相似性评估和属性简介的可视化功能。
- 用户界面友好,便于非专业用户操作。
数据集分析与药物模型评估
数据集分析揭示了药物相似性和化学多样性,对药物评估模型的开发具有重要的指导作用。
- 🧪 化学数据集的采集与整理
- 🔍 药物相似性和化学多样性的分析
- 📊 药物评估模型的开发与验证
作者从 ZINC、ChEMBL 和 GDB17 三个数据库中采集了已批准的药物和非药物化合物,用于模型的训练和测试。通过数据预处理,共整理出 5147 种药物,包括 FDA 批准的 2679 种和其他地区批准的 2468 种。此外,作者还从每个数据库中随机选择了 10,000 个分子作为负样本,并利用 PU 学习策略对这些负样本集中的噪声数据进行了分析。
为了深入研究化学空间,研究者对这些数据集进行了主成分分析(PCA)、Tanimoto 相似性分析和 Murcko 骨架分析。分析结果显示,数据在空间中的分布广泛,且具有明显的结构多样性。研究中还检测到 3337 个 Murcko 骨架,体现了高度的化学多样性。
在药物评估模型的开发方面,研究者提出的 DBPP-Predictor 包括六种物理化学和 20 种 ADMET 属性端点,并建立在超过 500 个高质量端点数据之上。分析表明,ADMET 端点在药物相似性评估中具有较高的重要性,有效地判断了化合物的药物相似性。
此外,研究者使用不同类型的分子表征来评估模型,并采用网格搜索和贝叶斯搜索进行了参数优化。通过十折交叉验证,评估了模型的性能。结果显示,DBPP-Predictor 在混合表征策略下表现良好,能有效区分药物和非药物。
为了测试模型的泛化性能,使用了测试集和外部验证集进行了评估。结果显示,DBPP-Predictor 在不同验证集上表现出较强的鲁棒性和优秀的泛化能力。
DBPP-Predictor 还提供了一个独立的软件界面和功能,支持单个分子和批量分子的药物相似性预测。用户可输入标准的 SMILES 字符串进行预测,预测结果将以 CSV 格式保存,并提供了属性档案的可视化模块,方便用户进行优化研究。
图表 1:药物类似性预测基于属性剖析(DBPP-Predictor)示意图
该图展现了药物的理化属性和 ADMET 属性剖析过程。
图表 2:数据集总体相似度热图和分子构架展示
图中 A 部分使用 MACCS 指纹展示了数据集整体的 Tanimoto 相似度热图。B 部分则显示了数据集中频率最高的 150 种分子构架。
图表 3:药物与非药物的理化属性剖析和毒性终点分析
图中 A 部分对药物与非药物(ZINC、ChEMBL 和 GDB17)的理化属性进行了剖析,包括分子量(MW)、脂溶性(logP)和极性表面积(TPSA)。B 部分呈现了四个毒性终点的散点矩阵分析,分别是呼吸毒性(Repro)、遗传毒性(Gene)、肝脏毒性(Hepa)和口服急性毒性(ROA)。
图表 4:模型在不同表征方法下的外部验证集性能
图表 5:五个数据集的药物类似性评分小提琴图及样本依赖性分析
A 部分呈现了 QED 评分。B 部分展示了 GCN 评分。C 部分为 FP 评分。D 部分涉及描述符评分。E 部分为 DBPP 评分。
图 6:展示在真实世界数据集上的 A QED 值,B FP 得分和 C DBPP 得分对比
图 7:药物相似性评估中,展现 A ADMET 得分与 DBPP 得分,B QED 与 DBPP 得分的相关性
图 8:平均生长抑制浓度(Avg. GI50)与 DBPP 得分比较
关于设计化合物的平均 50%生长抑制浓度(Avg. GI50)与 DBPP 得分(11a、11d 和 52b)的比较。Avg. GI50 指的是对 60 种人类癌细胞系的平均 GI50 值
图 9:独立软件 DBPP-Predictor 的界面展示。
用户可以选择预测单个分子或批量分子的药物相似性评估。其可视化功能提供易于理解的属性配置解释
表 1:呈现各数据集中的化合物信息
表 2:基于不同表示的模型的十折交叉验证结果展示
表 3:不同数据集上的 DBPP 得分对比
结论
研究者开发了一款名为 DBPPPredictor 的新型药物相似性评分函数。该函数结合了药物的理化性质与 ADMET(吸收、分布、代谢、排泄和毒性)属性,用于评估化学药物的类药性。DBPPPredictor 融合了深度学习、机器学习技术和多种化学指纹,如 AtomPairs、ECFPs、MACCS 和 Morgan,提升了其在药物研发领域的应用广度和准确性。
DBPPPredictor 利用图神经网络技术,如 GCN、GAT 和 GraphSAGE,进一步提高了药物相似性预测的准确性和效率。在参数设定上,它涵盖了氢键受体(HBA/HBD)数量、分子量(MW)、可旋转键数量(nROT)和拓扑极性表面积(TPSA)等多种化学和生物学参数。这些参数的综合应用使得 DBPPPredictor 能够全面评估药物的类药性,为药物发现和开发提供了一种更准确、高效的评价工具。
创新性:
- DBPP-Predictor 模型中集成了各种属性概况(理化和 ADMET)是一种新颖的方法。与传统模型相比,它可能提供了更全面、更细致的药物样性评估,传统模型可能只关注较窄的属性范围。
- DBPP-Predictor 提供的独立软件,允许用户预测和可视化化合物的属性概况,是一个独特且实用的工具,增强了研究的可用性和应用性。
参考资料:
Gu, Y., Wang, Y., Zhu, K., Li, W., Liu, G., & Tang, Y. (2024). DBPP-Predictor: a novel strategy for prediction of chemical drug-likeness based on property profiles. Journal of Cheminformatics, 16(1). https://doi.org/10.1186/s13321-024-00800-9 IF: 8.6 Q1 B2
Data and code: https://github.com/yxgu2353/DBPP-Predictor
点击这里👇关注我,记得标星哦~