RF Diffusion最强扩散式蛋白设计模型

RF Diffusion

是由华盛顿大学等机构开发的蛋白质结构生成模型,结合了 RoseTTAFold 的结构预测能力与扩散模型的生成能力,能够在多种设计任务中表现出色。其核心创新在于将蛋白质结构预测模型与扩散模型相结合,通过对三维结构坐标进行局部扰动和去噪,学习蛋白质序列与结构之间的复杂关系。该模型支持多种输入条件,如部分序列、折叠信息或固定的功能基序,提供了灵活的设计控制能力。在多项实验验证中,RFdiffusion 展示了其强大的蛋白质设计能力,包括生成多样且准确的蛋白质结构、设计高亲和力的结合剂以及构建对称的低聚物结构等。

例子:

这张图是一个RFdiffusion 无条件单体结构设计的示意图,展示了通过扩散模型生成的一个全新蛋白质单体结构,配以结构域、二级结构和功能注释的可视化效果。

1.三维蛋白结构骨架

整体呈带有弯曲和折叠的带状结构,是模型生成的蛋白主链(主干结构)。

蓝色α-螺旋(alpha helix)

绿色β-折叠(beta sheet)

橙色无规卷曲(loop/random coil)

2.结构域(Domains)

蛋白被划分为不同结构域(如N端与C端之间的两个稳定折叠单元),用浅色阴影区分结构模块。

每个结构域通常代表特定的功能或折叠单元,生成时也可用于模仿天然蛋白模块化。

3.Motif 注释

在结构中高亮显示了特定的功能motif(短结构段),可能是人工指定或模型自主生成的重要区域。

Motif 以红色或紫色框出,代表如酶活性位点、受体结合片段、loop hotspot等。

4.结合位点标注

图中用星号或标签标出可能的“配体结合口袋”或“蛋白-蛋白相互作用区域”。

通常由结构模型打分(如Pocket finder工具)或模型的设计目标指定。


以下是各个脚本的简要介绍及其用途:

一、脚本用途概览

1. install_rfdiffusion.sh

1)用途:自动配置 RFdiffusion 所需的软件环境。

2)功能:

① 创建新的 Conda 环境(默认名为 rfdiffusion)。

② 安装所需的依赖包(如 PyTorch、Biopython、dm-haiku、scipy 等)。

③ 克隆并安装 RFdiffusion 代码仓库。

④ 安装 ProteinMPNN(如果需要)。

⑤ 下载或配置模型权重文件。

3)适用场景:首次部署 RFdiffusion 或在新的服务器或集群节点上重新安装环境。

chmod +x install_rfdiffusion.sh      ./install_rfdiffusion.sh


2. 依次运行脚本

run_unconditional_monomer.sh

1)用途:从头生成一个长度为 150 个氨基酸的蛋白质单体结构,无需任何模板或输入结构。

2)适用场景:探索新型蛋白结构或折叠多样性。


run_binder_design.sh

1)用途:设计能与指定蛋白靶标结合的新蛋白质(结合剂)。支持设置热点残基。

2)适用场景:药物设计或蛋白-蛋白相互作用界面的探索。


run_loop_remodeling.sh

1)用途:重塑已有蛋白结构中某段 loop 区域(如界面 loop),以改善稳定性或功能。

2)适用场景:对已有蛋白设计进行局部优化。


run_motif_scaffolding.sh

1)用途:将已知的关键结合位点(motif)嵌入到新蛋白结构中,设计结构支架(scaffold)。

2)适用场景:抗原表位设计、免疫设计等。


run_partial_diffusion.sh

1)用途:对已有结构进行部分去噪和扩散处理,以生成具有多样性的折叠结构。

2)适用场景:蛋白变体探索、对结构稳定性进行微调。


run_fold_conditioning.sh

1)用途:通过提供二级结构和邻接信息来进行特定拓扑结构的蛋白设计。

2)适用场景:结构引导的设计任务,能结合用户自定义的折叠模式。


run_symmetric_oligomer.sh

1)用途:设计具有对称性的低聚物结构,如二聚体、四聚体等。

2)适用场景:材料科学、自组装蛋白、病毒壳体设计等方向。


3. 或者一键运行脚本:

run_all_rf_tasks.sh:依次执行上述所有任务脚本。

1)功能:

自动依次运行以下任务:

① 无条件单体设计

② 结合剂设计

③ Loop 重建

④ Motif scaffold

⑤ Partial diffusion

⑥ Fold conditioning

⑦ Symmetric oligomer

替换所有 /path/to/xxx.pdb 为你本地实际的 .pdb 文件路径。确保 python 指向的是你设置好 RFdiffusion 所在虚拟环境中的解释器。chmod +x run_all_rf_tasks.sh   ./run_all_rf_tasks.sh


二、运行结果与后续分析

运行完这些脚本,将获得一系列蛋白质结构设计的结果文件,它们来自 RFdiffusion 不同任务模块,形式一般是 PDB 文件(蛋白质三维结构),可用于后续的结构评估、建模验证或功能分析。下面是每个任务对应能得到的具体结果:

生成的 .pdb 文件:蛋白质三维坐标文件,可在 PyMOL、Chimera、Mol* 等工具中查看

这些结果可用于:

1. 结构可视化与筛选:

使用 PyMOL、Chimera、Mol* 等工具查看结构是否合理、美观、有创新。

2. 功能预测或模拟:

使用 AlphaFold 再预测结构稳定性。

使用 Rosetta 进行能量打分。

使用 Docking 软件模拟其结合位点。

3. 实验设计准备:

如果具备实验平台,可定向合成这些结构进行验证(如测序表达、CD 光谱、NMR、Cryo-EM 等)。



生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容