ESMFold 文章学习


ESMFold 和 OmegaFold 类似,都是将 MSA 和 template 的输入模块用一个预训练的蛋白质语言模型代替,然后再接一个与 Alphafold2 类似的 Evofomer + Structure 模块进行结构预测,由于不用搜索 MSA ,推理时间大大缩短。这里学习一下

1 摘要

1、文章利用大语言模型,直接从一级序列推断出完整的原子级蛋白质结构。随着蛋白质序列语言模型的参数规模扩展至 15B ,学习到的表征中逐渐呈现蛋白质结构的原子分辨率图像

2、这使得高分辨率结构预测的速度提升了一个数量级,从而能够对宏基因组蛋白质进行大规模的结构表征。文章构建了 ESM 宏基因图谱,预测了超过 6.17 亿条宏基因组蛋白质序列的结构,其中超过 2.25 亿条序列的预测置信度很高,为天然蛋白质广度和多样性的研究奠定了基础

2 介绍

1、文章介绍了迄今为止最大的蛋白质序列语言模型 ESM-2(参数量为 15B )。ESMFold 利用 ESM-2 学习到的信息和表征,仅使用单个序列作为输入即可端到端的进行 3D 结构预测。随着语言模型参数从数百扩展到数十亿,蛋白质结构预测能力也持续提升

2、AlphaFold2 和 RosettaFold 在原子分辨率结构预测方面取得了突破性进展,它们依赖于多序列比对(MSA)和相似性 template 来实现最佳性能。而 ESMFold 利用语言模型的内部表示,仅使用单个序列作为输入即可生成结构预测,从而显著加快了预测速度。当人为地将单个序列作为输入时,ESMFold 的原子级精度高于AF2 和 RosettaFold;而当使用完整的 MSA 作为输入时,ESMFold 的性能与 RoseTTAFold 相当

3、对于 low perplexity 序列,ESMFold 的预测结果与最先进的模型相当;结构预测精度与语言模型的 perplexity 相关,这表明当语言模型对序列的理解更深入时,它对结构的理解也更深入

3 在基于蛋白质序列训练的语言模型中涌现出原子分辨率结构

1、ESM-2 语言模型是迄今为止性能最佳的蛋白质语言模型。相对于上一代模型 ESM-1b, 文章改进了模型架构和训练参数,并增加了计算资源和数据量。相对位置 embeddings 的加入使得模型能够泛化到任意长度的序列。150M 参数的 ESM-2 的表现要优于 650M 参数的 ESM-1b

2、ESM-2 使用来自 UniRef 数据库的蛋白质序列进行训练。给定一个输入蛋白质,其中 15% 的氨基酸被屏蔽,ESM-2 的任务是预测这些缺失的位置。尽管该训练目标仅直接涉及预测缺失的氨基酸,但要取得较高的成功率,模型需要学习其输入的复杂内部表征。在自然语言处理中,这些表征包含词性、语法分析、语义相关性和文本蕴含信息。在生物学中,这些表征用于学习二级结构预测、结合位点预测和接触预测

3、随着 ESM-2 规模的扩大,文章观察到语言建模的精度显著提高。文章使用困惑度(perplexity)来评估语言模型的性能,困惑度用来衡量模型根据序列上下文预测氨基酸的能力。困惑度的取值范围从 1(完美模型)到 20(随机预测模型)。直观地说,困惑度描述了模型在进行预测时不确定的氨基酸数量

4、FigS1 显示了 ESM-2 系列模型的困惑度随更新次数的变化。8M 参数模型的困惑度为 10.45 ,而 15B 参数模型的困惑度为 6.37。这表明随着模型规模的扩大,对蛋白质序列的理解能力得到了显著提升

5、ESM-2 的训练仅基于序列,任何关于结构的信息都必然来源于对序列模型的识别。ESM-2 中形成了三级结构相对应的注意力模型(Fig1A),并且参数变化显著提升了对结构的理解(Fig1B)。预测接触的准确性随训练集中进化相关序列的数量而变化。训练集中序列相关性更高的蛋白质,其学习曲线随模型规模的增大而陡峭变化(Fig1C)

6、对于单个蛋白,文章观察到接触预测精度随参数量变化呈线性提升(Fig1D)。使用变换器投影每个原子的空间坐标,进行结构预测,从TM-score 上也显示 15B 参数的模型要优于 150M 的模型(Fig1E)。类似的,语言模型的参数量增加后,RMSD 降低、pLDDT 增加、Perplexity 降低(Fig1F)。语言建模的改进与低分辨率(接触图)和高分辨率(原子级)结构信息的增加密切相关

4 利用语言模型加速精确的原子分辨率的结构预测

1、从上面的信息可以看到,语言模型将与结构相关的进化模型内化,从而无需外部进化数据库、MSA 和 template。ESM-2 语言模型能够直接从蛋白质一级序列生成最先进的三维结构预测结果。这使得结构预测速度提高了一个数量级以上,同时保持了高分辨率精度

2、文章开发了 ESMFold,一个完全端到端的单序列结构预测器,通过为 ESM-2 训练一个 folding head。在预测时,蛋白质序列被输入到 ESM-2 中。该序列经过语言模型的前馈层处理,模型的内部状态(表示)被传递给 folding head,它首先执行一系列折叠模块。每个折叠模块交替更新序列 representation 和 pairwise representation。这些模块的输出被传递给一个等变Transformer结构模块,并经过三个循环步骤后输出最终的原子级结构和预测置信度。(注意:与Alphafold2 的结构相比,ESMfold 就是把 MSA 和 template 的信息用了一个蛋白质语言模型 ESM-2 代替,其实后续的 Evofomer + Structure 模块基本与 Alphafold2 类似

3、这种方法显著提高了预测速度。在单个 NVIDIA V100 GPU 上,ESMFold 仅需 14.2 秒即可预测一个包含 384 个氨基酸残基的蛋白质,比单个 AlphaFold2 模型快 6 倍。对于更短的序列,速度提升可达约 60 倍。因为避免了搜索 MSA 的步骤

4、文章用 PDB 中约 32.5 万个实验确定结构的约 2.5万 个簇来训练 floding head。该模型使用与AlphaFold相同的损失函数进行训练

5、其余的参数比较与 AF2 类似这里略过

5 利用语言模型加速精确的原子分辨率的结构预测

1、由于不用搜索 MSA ,预测结构的速度较快,文章对大型宏基因组序列资源进行全面的结构表征。对来自 MGnify90 数据库 ( 25 ) 的 6.17 亿条序列进行了折叠。这涵盖了长度为 20 至 1024 的所有序列,覆盖了 MGnify90 中 99% 的序列,这里形成了一个宏基因组的结构库

2、对这个库的精度也进行了分析,这里参数也略过。所有预测的结构均可在 ESM 宏基因组图谱(https://esmatlas.com)中作为开放科学资源获取

6 参考文献

Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, Smetanin N, Verkuil R, Kabeli O, Shmueli Y, Dos Santos Costa A, Fazel-Zarandi M, Sercu T, Candido S, Rives A. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023 Mar 17;379(6637):1123-1130. doi: 10.1126/science.ade2574. Epub 2023 Mar 16. PMID: 36927031.

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容