2024-03-28
导读
REINVENT通过强化学习解决了逆向设计问题,使用rnn和transformer作为深度学习架构,基于SMILES字符串作为分子表示。
包括结合增强学习和课程学习(RL/CL)的分阶段学习方法、用于分子优化的新变换器模型、在所有算法框架内完全集成所有生成器(包括迁移学习TL、RL、CL):
课程学习:从简单到复杂,从少到多
支持全新设计、R-基团替换、库设计、Linker (连接子)设计、骨架跃迁以及分子优化等多种应用场景
该软件以命令行工具的形式发布,支持 TOML 或 JSON 格式的用户配置。REINVENT 4 可以从以下网址免费下载:https://github.com/MolecularAI/REINVENT4,并在Apache 2.0 许可下提供
方法:
一、基于序列的神经网络模型,称为「代理」,擅长生成表示为 SMILES 字符串的分子 // 无条件代理专注于在没有外部输入的情况下生成序列,而有条件代理则由输入序列影响其生成序列:
- 基于token生成
- 负对数似然优化
两种解码策略:
- 多项式采样
- 波束搜索
Mol2Mol 作为有条件的先验代理,代表了分子生成的另一次飞跃,该代理接受大量数据集的训练,系统地探索化学空间
【Mol2Mol】是一种用于化学分子设计的工具,它的目标是帮助科学家和研究人员创建新的化学分子。
简而言之,它的作用是:给定一个已知的化学分子,Mol2Mol能够生成与这个分子相似的新分子。这对于药物研发特别有用,因为它可以帮助研究人员发现具有类似特性但可能效果更好或副作用更小的新药物分子。
二、迁移学习和强化学习
迁移学习通常用于用少量数据重新训练一个大型模型,以高效地获得一个新的改进模型,尤其适用于新任务可用数据较少的情况。因此,迁移学习可以被视为对现有模型的微调
迁移学习:
- 重训练先前模型
- 专注于任务的数据集使用
强化学习的创新:
- 增强似然概率: 将奖励信号与序列的可能性结合起来,保持期望属性和合理分子生成之间的平衡
- DAP 策略: 采用一种损失函数,指导代理生成高评分的分子,展现了系统在动态场景中的适应性
// reinvent4提供了各种分子生成器和强大的评分子系统。该软件使用 Python 3 开发,利用 Pytorch 进行机器学习,以及 RDKit 进行化学信息处理。
- 多样化分子生成器: 促进不同策略,如从头设计、R-基团替换和分子优化。
- 全面的评分子系统: 使用广泛的评分功能,提供在评估分子属性时的灵活性
案例及图标显示:
展示reinvent4显现出来的创新部分:
- REINVENT 4 的新版本不仅延续了之前版本的特点,还在功能上进行了重大更新。它引入了分阶段学习、Transform 模型和一致的优化算法框架,以及重新设计的评分子系统,为应对未来挑战做好准备。这些增强功能显著提高了化合物发现的成功率和多样性。例如,在经过 10 个周期的迁移学习后,新代理的生产率几乎是基线强化学习代理的两倍
// 一个 TOML 或 JSON 格式的输入配置文件控制软件的所有方面。配置文件可能包含 Lib/Linkinvent 和 Mol2Mol 生成器的「种子」SMILES 字符串。对于分阶段学习、迁移学习(TL)和评分,需要输入 SMILES 字符串。NLL 为负对数似然
// Reinvent 从头开始 创造新分子,Libinvent 修饰一个骨架,Linkinvent 识别两个片段之间的连接器,而 Mol2Mol 则在用户定义的相似度范围内优化分子
// 使用reinvent4 进行基于结构的药物设计
命中定义:
- 命中被定义为那些对接分数小于或等于-8千卡/摩尔且定量评估药效(QED)值大于或等于0.7的分子。对接分数是一个量化分子与蛋白质结合亲和力的指标,分数越低表示结合越紧密;QED是一个评估分子药物样性(drug-likeness)的量化指标,值越高表示分子越有可能是有效的药物
// REINVENT 4 的 Mol2Mol 模块设计了六种不同的先验,这些先验基于各类相似度进行了训练