RF Diffusion
是由华盛顿大学等机构开发的蛋白质结构生成模型,结合了 RoseTTAFold 的结构预测能力与扩散模型的生成能力,能够在多种设计任务中表现出色。其核心创新在于将蛋白质结构预测模型与扩散模型相结合,通过对三维结构坐标进行局部扰动和去噪,学习蛋白质序列与结构之间的复杂关系。该模型支持多种输入条件,如部分序列、折叠信息或固定的功能基序,提供了灵活的设计控制能力。在多项实验验证中,RFdiffusion 展示了其强大的蛋白质设计能力,包括生成多样且准确的蛋白质结构、设计高亲和力的结合剂以及构建对称的低聚物结构等。
例子:
这张图是一个RFdiffusion 无条件单体结构设计的示意图,展示了通过扩散模型生成的一个全新蛋白质单体结构,配以结构域、二级结构和功能注释的可视化效果。
1.三维蛋白结构骨架
整体呈带有弯曲和折叠的带状结构,是模型生成的蛋白主链(主干结构)。
蓝色α-螺旋(alpha helix)
绿色β-折叠(beta sheet)
橙色无规卷曲(loop/random coil)
2.结构域(Domains)
蛋白被划分为不同结构域(如N端与C端之间的两个稳定折叠单元),用浅色阴影区分结构模块。
每个结构域通常代表特定的功能或折叠单元,生成时也可用于模仿天然蛋白模块化。
3.Motif 注释
在结构中高亮显示了特定的功能motif(短结构段),可能是人工指定或模型自主生成的重要区域。
Motif 以红色或紫色框出,代表如酶活性位点、受体结合片段、loop hotspot等。
4.结合位点标注
图中用星号或标签标出可能的“配体结合口袋”或“蛋白-蛋白相互作用区域”。
通常由结构模型打分(如Pocket finder工具)或模型的设计目标指定。
以下是各个脚本的简要介绍及其用途:
一、脚本用途概览
1. install_rfdiffusion.sh
1)用途:自动配置 RFdiffusion 所需的软件环境。
2)功能:
① 创建新的 Conda 环境(默认名为 rfdiffusion)。
② 安装所需的依赖包(如 PyTorch、Biopython、dm-haiku、scipy 等)。
③ 克隆并安装 RFdiffusion 代码仓库。
④ 安装 ProteinMPNN(如果需要)。
⑤ 下载或配置模型权重文件。
3)适用场景:首次部署 RFdiffusion 或在新的服务器或集群节点上重新安装环境。
2. 依次运行脚本
run_unconditional_monomer.sh
1)用途:从头生成一个长度为 150 个氨基酸的蛋白质单体结构,无需任何模板或输入结构。
2)适用场景:探索新型蛋白结构或折叠多样性。
run_binder_design.sh
1)用途:设计能与指定蛋白靶标结合的新蛋白质(结合剂)。支持设置热点残基。
2)适用场景:药物设计或蛋白-蛋白相互作用界面的探索。
run_loop_remodeling.sh
1)用途:重塑已有蛋白结构中某段 loop 区域(如界面 loop),以改善稳定性或功能。
2)适用场景:对已有蛋白设计进行局部优化。
run_motif_scaffolding.sh
1)用途:将已知的关键结合位点(motif)嵌入到新蛋白结构中,设计结构支架(scaffold)。
2)适用场景:抗原表位设计、免疫设计等。
run_partial_diffusion.sh
1)用途:对已有结构进行部分去噪和扩散处理,以生成具有多样性的折叠结构。
2)适用场景:蛋白变体探索、对结构稳定性进行微调。
run_fold_conditioning.sh
1)用途:通过提供二级结构和邻接信息来进行特定拓扑结构的蛋白设计。
2)适用场景:结构引导的设计任务,能结合用户自定义的折叠模式。
run_symmetric_oligomer.sh
1)用途:设计具有对称性的低聚物结构,如二聚体、四聚体等。
2)适用场景:材料科学、自组装蛋白、病毒壳体设计等方向。
3. 或者一键运行脚本:
run_all_rf_tasks.sh:依次执行上述所有任务脚本。
1)功能:
自动依次运行以下任务:
① 无条件单体设计
② 结合剂设计
③ Loop 重建
④ Motif scaffold
⑤ Partial diffusion
⑥ Fold conditioning
⑦ Symmetric oligomer
二、运行结果与后续分析
运行完这些脚本,将获得一系列蛋白质结构设计的结果文件,它们来自 RFdiffusion 不同任务模块,形式一般是 PDB 文件(蛋白质三维结构),可用于后续的结构评估、建模验证或功能分析。下面是每个任务对应能得到的具体结果:
这些结果可用于:
1. 结构可视化与筛选:
使用 PyMOL、Chimera、Mol* 等工具查看结构是否合理、美观、有创新。
2. 功能预测或模拟:
使用 AlphaFold 再预测结构稳定性。
使用 Rosetta 进行能量打分。
使用 Docking 软件模拟其结合位点。
3. 实验设计准备:
如果具备实验平台,可定向合成这些结构进行验证(如测序表达、CD 光谱、NMR、Cryo-EM 等)。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~