导读
Tree-Invent 生成模型作为一种层次化的生成工具,将分子图等效地转换为多叉树,从而创新性地表征分子的复杂结构。在这个模型中,复杂环系统、非环原子和化学键分别由虚拟环节点、单节点和边缘来表征。为了实现节点添加、环形成和节点连接等操作,作者独立训练了三个子模型。这些子模型可以便捷地整合起来,以进行自动回归分子生成。模型引入了独特的掩码机制,能够适应在拓扑约束下的结构生成,从而更准确地控制结构。此外,结合强化学习该模型能够处理各种多样化的受约束结构生成任务,如骨架跃迁、骨架修饰和连接器设计等。
方法
理解 Tree-Invent 的基本概念
简化分子结构
Tree-Invent 引入了一种表征分子图的创新方法。它将复杂的环系统简化为粗粒化的环节点,同时将非环原子描述为单个原子节点。这种表征方式将复杂的分子生成过程转化为可管理的两步程序:生成树结构,然后生成环结构。
节点拓扑指纹(NTF)
Tree-Invent 的一个关键元素是 NTF。它编码了环系统的各种属性,例如环的数量、芳香环的存在、外环双键,以及特定原子(如 C、N、O 等)的数量。NTF 在生成和细化分子图中的环结构中发挥着至关重要的作用。
五步结构生成过程
Tree-Invent 采用系统的五步过程生成分子结构:
Tree-Invent 的架构概览
Tree-Invent 的架构基于三个主要模块:
每个模块都配备了图神经网络(GNN)块和多层感知器(MLP)网络,促进复杂计算和决策过程。
Tree-Invent 的创新特性
图神经网络的运用
Tree-Invent 广泛利用图卷积网络(GCN)来学习和表征图结构。该模型将分子图或子图视为一系列节点和边特征,通过门控图神经网络(GGNN)进行处理。
MLP 的作用
Tree-Invent 中的 MLP 对于预测各种过程(如节点添加、环生成和节点连接)的行动概率分布至关重要,提高了模型的决策准确性。
先进的分子生成技术
Tree-Invent 在生成具有各种约束的分子结构方面脱颖而出:
该模型擅长处理复杂任务,如骨架跃迁、骨架修饰和连接器设计,这在药物发现和化学合成中至关重要。
整合强化学习
将强化学习(RL)与 Tree-Invent 结合是一个重大进步。这种整合促进了结构优化,实现了针对靶标属性的优化,使模型不仅具有生成能力,还具有预测和适应能力。
数据集利用
Tree-Invent 在 GuacaMol 数据集上进行了训练,涵盖了大量的分子结构。模型的训练涉及复杂的分段、原子遍历方法和优化技术,确保了分子图生成的稳健性和准确性。
主要结果及图表
Tree-Invent 生成模型最初在 GuacaMol 数据集上进行训练,并在 50000 个化合物样本集上进行性能评估。结果显示,该模型在结构有效性、唯一性和新颖性方面的表现可与其他模型媲美。然而,在 KL 散度和 Frechet ChemNet Distance(FCD)指标上表现较弱。在特定化学任务中,如使用强化学习生成 DRD2 活性分子时,模型展现了较高的预测准确率和探索化学空间的能力。
在设计 CDK4 抑制剂方面,Tree-Invent 模型通过迁移学习快速掌握 CDK4 抑制剂的结构特点。利用迁移学习,模型能生成与已知抑制剂结构相近的分子。此外,模型在生成结构受限分子方面也展现了其独特性。例如,在生成核苷类似物时,模型在满足拓扑树约束条件下,成功生成新的核苷结构。在强化学习环境中,模型同样有效地执行骨架跃迁和骨架修饰等任务。
综合来看,Tree-Invent 生成模型不仅在无约束环境中表现出色,而且在结合强化学习和迁移学习等方法时,能够灵活应对多种化学设计任务,如骨架跃迁、骨架修饰和连接体设计。
图表 1: 分子表征的拓扑树及其组成部分
图表 2: 树状创新分子生成工作流程基础图
图表 3: 模型架构
图表 4: 训练数据准备的结构划分示例
左侧为输入神经网络的划分片段,右侧为输出。虚线代表预期创建的键。
图表 5: 氟苯的拓扑图和分子图
图表 6: 拓扑约束示例
图表 7: Tree-Invent 训练过程中生成分子的平均活性得分
图表 8: 迁移学习过程中生成分子与训练集的平均 Tanimoto 相似性
图表 9: 腺嘌呤的结构及其树状结构
图表 10: Celecoxib 的结构及其用于结构生成的两种不同拓扑约束
图表 11: 不同约束下生成的结构
图表 12: ADAM17 活性分子的骨架修饰
图表 13: 仅位置约束和拓扑约束下生成的骨架修饰示例
图表 14: S1PR1 抑制剂连接器的定义拓扑约束
表 1:节点特征 x 与边特征 Xerw 的构成
表 2:APD 加、APD 环与 APD 连接形状张量在单步骤中的应用
表 3:迁移学习和强化学习中使用的几个数据集及 SVC 模型在测试集上的分类性能
表 4:Tree-Invent 与其他基准模型的性能比较
要点总结
缺点:
- 方法和数据可能缺乏足够的细节,以供其他研究人员复制和验证。
- 可能存在对 Tree-Invent 模型的可扩展性和普遍性的担忧。
- 与现有前沿生成模型和技术的比较不足(比如: Reinvent 分子生成模型),限制了对其优势或改进的理解。
- 缺乏对 Tree-Invent 如何不同于或改进当前方法论的批判性分析。
- 一些结果可能未清晰呈现,或在其解释和讨论中缺乏足够的深度。
- 可能过分依赖计算数据,而没有充分的实验验证或真实世界案例测试。
改进建议
- 提供更详细的方法和数据信息,以增强可复制性。
- 包含更多的验证,可能通过实验结果或案例研究,以展示该模型的实际应用性。
- 扩展与现有前沿生成模型的比较,突出 Tree-Invent 模型的特定优势和局限。
- 包含更全面的讨论,阐述该模型在当前计算化学工具领域的位置。
- 明确结果的呈现,确保数据可解读且有效传达。
- 加深对结果的分析,关注其实际应用和未来研究的潜在领域。
参考资料:
Reymond, J.-L. (2015). The Chemical Space Project. Accounts of Chemical Research, 48(3), 722–730. https://doi.org/10.1021/ar500432k
Code: https://github.com/MingyuanXu/Tree-Invent.
文献下载(复制链接到外部浏览器打开): https://is.gd/YOYHsj