Tree-Invent 分子生成模型在新药设计中的应用


导读

Tree-Invent 生成模型作为一种层次化的生成工具,将分子图等效地转换为多叉树,从而创新性地表征分子的复杂结构。在这个模型中,复杂环系统、非环原子和化学键分别由虚拟环节点、单节点和边缘来表征。为了实现节点添加、环形成和节点连接等操作,作者独立训练了三个子模型。这些子模型可以便捷地整合起来,以进行自动回归分子生成。模型引入了独特的掩码机制,能够适应在拓扑约束下的结构生成,从而更准确地控制结构。此外,结合强化学习该模型能够处理各种多样化的受约束结构生成任务,如骨架跃迁、骨架修饰和连接器设计等。

方法

理解 Tree-Invent 的基本概念

简化分子结构

Tree-Invent 引入了一种表征分子图的创新方法。它将复杂的环系统简化为粗粒化的环节点,同时将非环原子描述为单个原子节点。这种表征方式将复杂的分子生成过程转化为可管理的两步程序:生成树结构,然后生成环结构。

节点拓扑指纹(NTF)

Tree-Invent 的一个关键元素是 NTF。它编码了环系统的各种属性,例如环的数量、芳香环的存在、外环双键,以及特定原子(如 C、N、O 等)的数量。NTF 在生成和细化分子图中的环结构中发挥着至关重要的作用。

五步结构生成过程

Tree-Invent 采用系统的五步过程生成分子结构:

  • 初始化:从一个空图开始,考虑预定义的树结构约束。
  • 节点采样:涉及采样树节点并使用 NTF 生成环。
  • 环生成:模型更新环结构,直至其形成完成。
  • 节点连接:将采样节点的子图与当前的分子图连接。
  • 终止:根据特定标准决定何时终止图的生成。
  • Tree-Invent 的架构概览

    Tree-Invent 的架构基于三个主要模块:

  • 节点采样模块:预测当前图的下一步行动,决定是否继续生长以及添加哪种类型的节点。
  • 环生成模块:在 NTF 约束下生成环结构。
  • 节点连接模块:将新采样的节点与分子图连接。
  • 每个模块都配备了图神经网络(GNN)块和多层感知器(MLP)网络,促进复杂计算和决策过程。

    Tree-Invent 的创新特性

    图神经网络的运用

    Tree-Invent 广泛利用图卷积网络(GCN)来学习和表征图结构。该模型将分子图或子图视为一系列节点和边特征,通过门控图神经网络(GGNN)进行处理。

    MLP 的作用

    Tree-Invent 中的 MLP 对于预测各种过程(如节点添加、环生成和节点连接)的行动概率分布至关重要,提高了模型的决策准确性。

    先进的分子生成技术

    Tree-Invent 在生成具有各种约束的分子结构方面脱颖而出:

  • 无约束生成:利用其系统化的采样和生成步骤,进行自由形式的分子生成。
  • 拓扑约束:纳入特定的拓扑特征作为约束,允许对生成的结构进行精确控制。
  • 该模型擅长处理复杂任务,如骨架跃迁、骨架修饰和连接器设计,这在药物发现和化学合成中至关重要。

    整合强化学习

    将强化学习(RL)与 Tree-Invent 结合是一个重大进步。这种整合促进了结构优化,实现了针对靶标属性的优化,使模型不仅具有生成能力,还具有预测和适应能力。

    数据集利用

    Tree-Invent 在 GuacaMol 数据集上进行了训练,涵盖了大量的分子结构。模型的训练涉及复杂的分段、原子遍历方法和优化技术,确保了分子图生成的稳健性和准确性。

    主要结果及图表

  • 🌳 Tree-Invent 生成模型基本性能: 高效生成独特且新颖的化合物。
  • 🧪 案例研究: 应用于多种化学任务,例如 DRD2 活性分子的生成、CDK4 抑制剂的设计。
  • 📈 模型的适应性与灵活性: 能够适配不同学习方法,包括强化学习和迁移学习。
  • Tree-Invent 生成模型最初在 GuacaMol 数据集上进行训练,并在 50000 个化合物样本集上进行性能评估。结果显示,该模型在结构有效性、唯一性和新颖性方面的表现可与其他模型媲美。然而,在 KL 散度和 Frechet ChemNet Distance(FCD)指标上表现较弱。在特定化学任务中,如使用强化学习生成 DRD2 活性分子时,模型展现了较高的预测准确率和探索化学空间的能力。

    在设计 CDK4 抑制剂方面,Tree-Invent 模型通过迁移学习快速掌握 CDK4 抑制剂的结构特点。利用迁移学习,模型能生成与已知抑制剂结构相近的分子。此外,模型在生成结构受限分子方面也展现了其独特性。例如,在生成核苷类似物时,模型在满足拓扑树约束条件下,成功生成新的核苷结构。在强化学习环境中,模型同样有效地执行骨架跃迁和骨架修饰等任务。

    综合来看,Tree-Invent 生成模型不仅在无约束环境中表现出色,而且在结合强化学习和迁移学习等方法时,能够灵活应对多种化学设计任务,如骨架跃迁、骨架修饰和连接体设计。

    图表 1: 分子表征的拓扑树及其组成部分

  • a) 分子的拓扑树表征。
  • b) 环节点的 NTF 组成。
  • c) 单个原子节点的组成。⊕ 表征连接。
  • 图表 2: 树状创新分子生成工作流程基础图

    图表 3: 模型架构

  • a) Node
  • b) Ring
  • c) Node 连接。⊕ 表征连接。
  • 图表 4: 训练数据准备的结构划分示例

    左侧为输入神经网络的划分片段,右侧为输出。虚线代表预期创建的键。

    图表 5: 氟苯的拓扑图和分子图

  • a) 氟苯的拓扑图和分子图。
  • b) 下一步节点添加的节点类型限制。
  • c) 下一步节点连接的连接限制。
  • d) 用户定义的特殊节点定义。
  • 图表 6: 拓扑约束示例

  • a) 生成结构必须满足的分子拓扑树模板。
  • b) 中心节点(骨架)变化,替代基团固定。
  • c) 左侧的骨架固定,替代基团必须具有固定拓扑。
  • d) 分子具有特定的端基和链接部分必须有两个节点。
  • 图表 7: Tree-Invent 训练过程中生成分子的平均活性得分

  • a) 平均活性得分变化。
  • b) 有效性和独特性。
  • c-e) 第 15、40、115 轮生成的 10 个随机分子及其活性得分。
  • 图表 8: 迁移学习过程中生成分子与训练集的平均 Tanimoto 相似性

  • a) 平均 Tanimoto 相似性变化。
  • b) 迁移学习后 Tree-Invent 生成的 CDK4 抑制剂分子。分子下标注了与训练集的最大相似度。D. 带拓扑约束的结构生成。
  • 图表 9: 腺嘌呤的结构及其树状结构

  • a) 腺嘌呤的结构。
  • b) 腺嘌呤的树状结构。
  • c) 使用树状约束生成的分子。
  • 图表 10: Celecoxib 的结构及其用于结构生成的两种不同拓扑约束

  • a) Celecoxib 的结构。
  • d, g) 用于结构生成的两种不同拓扑约束。
  • b, c, e, f, h, i) 在无约束、约束 d、约束 g 条件下进行 RL 训练时,生成批次的平均 Tanimoto 相似度 S1, 有效性和独特性的演变。有效分子指符合结构有效性以及拓扑约束的化合物。
  • 图表 11: 不同约束下生成的结构

  • a) 无约束生成的结构。
  • b) 图表 10d 约束下生成的结构。
  • c) 图表 10g 约束下生成的结构。数字指 S1*. 与 Celecoxib 的比较。
  • 图表 12: ADAM17 活性分子的骨架修饰

  • a, d) 定义的拓扑约束。
  • b, c) 在约束 a 下进行 RL 运行的平均活性得分、有效性和独特性演变。
  • e, f) 在约束 d 下进行 RL 运行的平均活性得分、有效性和独特性演变。有效分子指符合结构有效性以及拓扑约束的化合物。
  • 图表 13: 仅位置约束和拓扑约束下生成的骨架修饰示例

  • a) 仅位置约束下生成的骨架修饰示例。
  • b) 拓扑约束下生成的骨架修饰示例。顶部展示了一个 ADAM17 活性结构示例,生成物的活性得分在图中显示。
  • 图表 14: S1PR1 抑制剂连接器的定义拓扑约束

  • a) S1PR1 抑制剂连接器的定义拓扑约束。
  • b, c) 在此约束下生成的 HTR1A 抑制剂的平均活性得分、有效性和独特性的演变。有效分子指符合结构有效性以及拓扑约束的化合物。
  • d) 使用连接器拓扑约束为 S1PR1 生成的分子。平均活性得分在图中显示,展示了两个例子活性物。
  • 表 1:节点特征 x 与边特征 Xerw 的构成

    表 2:APD 加、APD 环与 APD 连接形状张量在单步骤中的应用

    表 3:迁移学习和强化学习中使用的几个数据集及 SVC 模型在测试集上的分类性能

    表 4:Tree-Invent 与其他基准模型的性能比较

    要点总结

  • 🌳 树形结构:将分子图转换为多叉树形式,通过虚拟环节点、单节点和边缘分别表征复杂的环系统、非环原子和化学键。
  • 🧪 子模型独立训练:针对节点添加、环形成和节点连接操作,研究者分别独立训练三个子模型,便于实现自动回归分子生成的整合。
  • 🎭 掩码机制:模型中引入了独特的掩码机制,以适应拓扑约束下的结构生成,实现更精细的结构控制。
  • 🤖 强化学习的结合:模型可处理多种受约束的结构生成任务,包括骨架跃迁、骨架修饰和连接器设计等。
  • 缺点:

  • 验证与可复制性
    • 方法和数据可能缺乏足够的细节,以供其他研究人员复制和验证。
    • 可能存在对 Tree-Invent 模型的可扩展性和普遍性的担忧。
  • 与现有前沿生成模型的比较
    • 与现有前沿生成模型和技术的比较不足(比如: Reinvent 分子生成模型),限制了对其优势或改进的理解。
    • 缺乏对 Tree-Invent 如何不同于或改进当前方法论的批判性分析。
  • 结果与解释
    • 一些结果可能未清晰呈现,或在其解释和讨论中缺乏足够的深度。
    • 可能过分依赖计算数据,而没有充分的实验验证或真实世界案例测试。

    改进建议

  • 加强验证和可复制性
    • 提供更详细的方法和数据信息,以增强可复制性。
    • 包含更多的验证,可能通过实验结果或案例研究,以展示该模型的实际应用性。
  • 扩大比较分析范围
    • 扩展与现有前沿生成模型的比较,突出 Tree-Invent 模型的特定优势和局限。
    • 包含更全面的讨论,阐述该模型在当前计算化学工具领域的位置。
  • 改进结果呈现和解释
    • 明确结果的呈现,确保数据可解读且有效传达。
    • 加深对结果的分析,关注其实际应用和未来研究的潜在领域。


    参考资料:

  • Reymond, J.-L. (2015). The Chemical Space Project. Accounts of Chemical Research, 48(3), 722–730. https://doi.org/10.1021/ar500432k

  • Code: https://github.com/MingyuanXu/Tree-Invent.

  • 文献下载(复制链接到外部浏览器打开): https://is.gd/YOYHsj

  • 最后编辑于
    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 221,548评论 6 515
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 94,497评论 3 399
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 167,990评论 0 360
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 59,618评论 1 296
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 68,618评论 6 397
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 52,246评论 1 308
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 40,819评论 3 421
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 39,725评论 0 276
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 46,268评论 1 320
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 38,356评论 3 340
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 40,488评论 1 352
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 36,181评论 5 350
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 41,862评论 3 333
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 32,331评论 0 24
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 33,445评论 1 272
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 48,897评论 3 376
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 45,500评论 2 359

    推荐阅读更多精彩内容