Tree-Invent 分子生成模型在新药设计中的应用

导读

Tree-Invent 生成模型作为一种层次化的生成工具，将分子图等效地转换为多叉树，从而创新性地表征分子的复杂结构。在这个模型中，复杂环系统、非环原子和化学键分别由虚拟环节点、单节点和边缘来表征。为了实现节点添加、环形成和节点连接等操作，作者独立训练了三个子模型。这些子模型可以便捷地整合起来，以进行自动回归分子生成。模型引入了独特的掩码机制，能够适应在拓扑约束下的结构生成，从而更准确地控制结构。此外，结合强化学习该模型能够处理各种多样化的受约束结构生成任务，如骨架跃迁、骨架修饰和连接器设计等。

方法

理解 Tree-Invent 的基本概念

简化分子结构

Tree-Invent 引入了一种表征分子图的创新方法。它将复杂的环系统简化为粗粒化的环节点，同时将非环原子描述为单个原子节点。这种表征方式将复杂的分子生成过程转化为可管理的两步程序：生成树结构，然后生成环结构。

节点拓扑指纹（NTF）

Tree-Invent 的一个关键元素是 NTF。它编码了环系统的各种属性，例如环的数量、芳香环的存在、外环双键，以及特定原子（如 C、N、O 等）的数量。NTF 在生成和细化分子图中的环结构中发挥着至关重要的作用。

五步结构生成过程

Tree-Invent 采用系统的五步过程生成分子结构：

初始化：从一个空图开始，考虑预定义的树结构约束。

节点采样：涉及采样树节点并使用 NTF 生成环。

环生成：模型更新环结构，直至其形成完成。

节点连接：将采样节点的子图与当前的分子图连接。

终止：根据特定标准决定何时终止图的生成。

Tree-Invent 的架构概览

Tree-Invent 的架构基于三个主要模块：

节点采样模块：预测当前图的下一步行动，决定是否继续生长以及添加哪种类型的节点。

环生成模块：在 NTF 约束下生成环结构。

节点连接模块：将新采样的节点与分子图连接。

每个模块都配备了图神经网络（GNN）块和多层感知器（MLP）网络，促进复杂计算和决策过程。

Tree-Invent 的创新特性

图神经网络的运用

Tree-Invent 广泛利用图卷积网络（GCN）来学习和表征图结构。该模型将分子图或子图视为一系列节点和边特征，通过门控图神经网络（GGNN）进行处理。

MLP 的作用

Tree-Invent 中的 MLP 对于预测各种过程（如节点添加、环生成和节点连接）的行动概率分布至关重要，提高了模型的决策准确性。

先进的分子生成技术

Tree-Invent 在生成具有各种约束的分子结构方面脱颖而出：

无约束生成：利用其系统化的采样和生成步骤，进行自由形式的分子生成。

拓扑约束：纳入特定的拓扑特征作为约束，允许对生成的结构进行精确控制。

该模型擅长处理复杂任务，如骨架跃迁、骨架修饰和连接器设计，这在药物发现和化学合成中至关重要。

整合强化学习

将强化学习（RL）与 Tree-Invent 结合是一个重大进步。这种整合促进了结构优化，实现了针对靶标属性的优化，使模型不仅具有生成能力，还具有预测和适应能力。

数据集利用

Tree-Invent 在 GuacaMol 数据集上进行了训练，涵盖了大量的分子结构。模型的训练涉及复杂的分段、原子遍历方法和优化技术，确保了分子图生成的稳健性和准确性。

主要结果及图表

🌳 Tree-Invent 生成模型基本性能: 高效生成独特且新颖的化合物。

🧪 案例研究: 应用于多种化学任务，例如 DRD2 活性分子的生成、CDK4 抑制剂的设计。

📈 模型的适应性与灵活性: 能够适配不同学习方法，包括强化学习和迁移学习。

Tree-Invent 生成模型最初在 GuacaMol 数据集上进行训练，并在 50000 个化合物样本集上进行性能评估。结果显示，该模型在结构有效性、唯一性和新颖性方面的表现可与其他模型媲美。然而，在 KL 散度和 Frechet ChemNet Distance（FCD）指标上表现较弱。在特定化学任务中，如使用强化学习生成 DRD2 活性分子时，模型展现了较高的预测准确率和探索化学空间的能力。

在设计 CDK4 抑制剂方面，Tree-Invent 模型通过迁移学习快速掌握 CDK4 抑制剂的结构特点。利用迁移学习，模型能生成与已知抑制剂结构相近的分子。此外，模型在生成结构受限分子方面也展现了其独特性。例如，在生成核苷类似物时，模型在满足拓扑树约束条件下，成功生成新的核苷结构。在强化学习环境中，模型同样有效地执行骨架跃迁和骨架修饰等任务。

综合来看，Tree-Invent 生成模型不仅在无约束环境中表现出色，而且在结合强化学习和迁移学习等方法时，能够灵活应对多种化学设计任务，如骨架跃迁、骨架修饰和连接体设计。

图表 1: 分子表征的拓扑树及其组成部分

a) 分子的拓扑树表征。

b) 环节点的 NTF 组成。

c) 单个原子节点的组成。⊕ 表征连接。

图表 2: 树状创新分子生成工作流程基础图

图表 3: 模型架构

a) Node

b) Ring

c) Node 连接。⊕ 表征连接。

图表 4: 训练数据准备的结构划分示例

左侧为输入神经网络的划分片段，右侧为输出。虚线代表预期创建的键。

图表 5: 氟苯的拓扑图和分子图

a) 氟苯的拓扑图和分子图。

b) 下一步节点添加的节点类型限制。

c) 下一步节点连接的连接限制。

d) 用户定义的特殊节点定义。

图表 6: 拓扑约束示例

a) 生成结构必须满足的分子拓扑树模板。

b) 中心节点（骨架）变化，替代基团固定。

c) 左侧的骨架固定，替代基团必须具有固定拓扑。

d) 分子具有特定的端基和链接部分必须有两个节点。

图表 7: Tree-Invent 训练过程中生成分子的平均活性得分

a) 平均活性得分变化。

b) 有效性和独特性。

c-e) 第 15、40、115 轮生成的 10 个随机分子及其活性得分。

图表 8: 迁移学习过程中生成分子与训练集的平均 Tanimoto 相似性

a) 平均 Tanimoto 相似性变化。

b) 迁移学习后 Tree-Invent 生成的 CDK4 抑制剂分子。分子下标注了与训练集的最大相似度。D. 带拓扑约束的结构生成。

图表 9: 腺嘌呤的结构及其树状结构

a) 腺嘌呤的结构。

b) 腺嘌呤的树状结构。

c) 使用树状约束生成的分子。

图表 10: Celecoxib 的结构及其用于结构生成的两种不同拓扑约束

a) Celecoxib 的结构。

d, g) 用于结构生成的两种不同拓扑约束。

b, c, e, f, h, i) 在无约束、约束 d、约束 g 条件下进行 RL 训练时，生成批次的平均 Tanimoto 相似度 S1, 有效性和独特性的演变。有效分子指符合结构有效性以及拓扑约束的化合物。

图表 11: 不同约束下生成的结构

a) 无约束生成的结构。

b) 图表 10d 约束下生成的结构。

c) 图表 10g 约束下生成的结构。数字指 S1*. 与 Celecoxib 的比较。

图表 12: ADAM17 活性分子的骨架修饰

a, d) 定义的拓扑约束。

b, c) 在约束 a 下进行 RL 运行的平均活性得分、有效性和独特性演变。

e, f) 在约束 d 下进行 RL 运行的平均活性得分、有效性和独特性演变。有效分子指符合结构有效性以及拓扑约束的化合物。

图表 13: 仅位置约束和拓扑约束下生成的骨架修饰示例

a) 仅位置约束下生成的骨架修饰示例。

b) 拓扑约束下生成的骨架修饰示例。顶部展示了一个 ADAM17 活性结构示例，生成物的活性得分在图中显示。

图表 14: S1PR1 抑制剂连接器的定义拓扑约束

a) S1PR1 抑制剂连接器的定义拓扑约束。

b, c) 在此约束下生成的 HTR1A 抑制剂的平均活性得分、有效性和独特性的演变。有效分子指符合结构有效性以及拓扑约束的化合物。

d) 使用连接器拓扑约束为 S1PR1 生成的分子。平均活性得分在图中显示，展示了两个例子活性物。

表 1：节点特征 x 与边特征 Xerw 的构成

表 2：APD 加、APD 环与 APD 连接形状张量在单步骤中的应用

表 3：迁移学习和强化学习中使用的几个数据集及 SVC 模型在测试集上的分类性能

表 4：Tree-Invent 与其他基准模型的性能比较

要点总结

🌳 树形结构：将分子图转换为多叉树形式，通过虚拟环节点、单节点和边缘分别表征复杂的环系统、非环原子和化学键。

🧪 子模型独立训练：针对节点添加、环形成和节点连接操作，研究者分别独立训练三个子模型，便于实现自动回归分子生成的整合。

🎭 掩码机制：模型中引入了独特的掩码机制，以适应拓扑约束下的结构生成，实现更精细的结构控制。

🤖 强化学习的结合：模型可处理多种受约束的结构生成任务，包括骨架跃迁、骨架修饰和连接器设计等。

缺点:

验证与可复制性

方法和数据可能缺乏足够的细节，以供其他研究人员复制和验证。
可能存在对 Tree-Invent 模型的可扩展性和普遍性的担忧。

与现有前沿生成模型的比较

与现有前沿生成模型和技术的比较不足(比如: Reinvent 分子生成模型)，限制了对其优势或改进的理解。
缺乏对 Tree-Invent 如何不同于或改进当前方法论的批判性分析。

结果与解释

一些结果可能未清晰呈现，或在其解释和讨论中缺乏足够的深度。
可能过分依赖计算数据，而没有充分的实验验证或真实世界案例测试。

改进建议

加强验证和可复制性

提供更详细的方法和数据信息，以增强可复制性。
包含更多的验证，可能通过实验结果或案例研究，以展示该模型的实际应用性。

扩大比较分析范围

扩展与现有前沿生成模型的比较，突出 Tree-Invent 模型的特定优势和局限。
包含更全面的讨论，阐述该模型在当前计算化学工具领域的位置。

改进结果呈现和解释

明确结果的呈现，确保数据可解读且有效传达。
加深对结果的分析，关注其实际应用和未来研究的潜在领域。

参考资料:

Reymond, J.-L. (2015). The Chemical Space Project. Accounts of Chemical Research, 48(3), 722–730. https://doi.org/10.1021/ar500432k

Code: https://github.com/MingyuanXu/Tree-Invent.

文献下载(复制链接到外部浏览器打开): https://is.gd/YOYHsj

最后编辑于：2023.11.20 17:23:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,548评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,497评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,990评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,618评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,618评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,246评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,819评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,725评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,268评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,356评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,488评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,181评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,862评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,331评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,445评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,897评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,500评论 2赞 359