2022-10-27

Nat Methods | 首次引入密度图进一步改进AlphaFold建模

原创 骄阳似我 图灵基因 2022-10-27 09:32 发表于江苏

收录于合集#前沿生物大数据分析

撰文:骄阳似我

IF47.99

推荐度:⭐⭐⭐⭐⭐

亮点:

1、机器学习预测算法,如AlphaFold和RoseTTAFold,可以创建非常准确的蛋白质模型,但这些模型通常有一些区域的预测可信度较低或准确性较低。本文假设,通过隐式包含新的实验信息(如密度图),可以准确地预测模型的大部分,这可能协同改善模型中机器学习或实验没有完全解决的部分。

2、本文开发了一种迭代过程,即基于实验密度图自动重建AlphaFold模型,并将重建后的模型作为新的AlphaFold预测的模板。结果表明,除了在实验数据指导下进行的简单重建之外,包含实验信息可以改进预测。这种具有密度的AlphaFold建模的程序已被纳入到解释晶体学和电子低温显微镜图的自动程序中。


先进的基于机器学习的结构预测算法正在改变蛋白质及其复合物的三维结构的获得方式。例如,AlphaFold和RoseTTAFold算法可以基于该蛋白质的氨基酸序列和多序列比对中出现的残基共变异信息,对该蛋白质结构的实质性区域进行准确的预测。预测可以通过包括实验确定的具有相似序列的蛋白质结构来增强。

使用预测模型进行结构确定存在局限性。特别是,机器学习方法通常不能对蛋白质中的所有残基产生准确的预测。这部分是由于许多蛋白质中存在无序片段,但也是由于部分或全部某些蛋白质序列的多序列比对的大小和准确性有限,导致关于残基共变异的可用信息数量有限。

一个相关的限制是,可以采用替代构象的蛋白质部分可以只在其中一个中被系统地预测;这种限制可以通过多个序列比对的替代取样来减少。此外,蛋白质的单个结构域通常可以被准确地预测,但在缺乏广泛的保守相互作用表面的情况下,目前的方法还不能明确地预测结构域之间的空间关系。最后一个限制是,由于这些机器学习方法是在蛋白质数据库(PDB)中的结构上训练的,预测可能偏向于这些已知结构,即使它们没有明确作为预测模板。

近期,在Nature methods杂志上发表了一篇名为“ Improved AlphaFold modeling with implicit experimental information”的文章,提出了这样的假设:新的实验信息可能协同改善结构预测,其中纠正蛋白质链的一部分可能改善链的另一部分的结构预测。将密度图的信息合并到结构预测中的迭代过程可能进一步提高建模的准确性。这将类似于大分子晶体学的情况,即模型的一部分的改进导致晶体相的估计,反过来改进各地的密度图,并允许建立更多的模型。


新的实验信息可以协同证明结构预测,并且密度图中的信息可以以重建模型的形式捕获,并开发了一个自动程序,在该程序中,预测的Alphafold模型被修剪、叠加(对接)在低温密度图上,然后在新的预测周期中将重建的模型与序列一起提供给Alphafold。该程序的输出是一个新的Alphafold模型,通过在预测中使用构建的模板将新的实验信息纳入其中。它通过在预测中使用重建的模板,合并了新的实验信息。将4个循环的迭代算法应用于一个蛋白质链的序列和25个低温电子显微镜结构的全密度图,所有这些都保存在我们使用的AlphaFold版本的数据库创建之后。

在这些测试中,在AlphaFold建模的每个阶段中都包含了多个序列比对。为了模拟PDB中没有类似结构的情况,没有使用PDB中的模板。然后,对于每种蛋白质,检查了获得的四个AlphaFold模型(每个建模周期一个),并将它们与相应的沉积模型和相应的沉积密度图进行比较。

利用密度图的迭代结构预测和模型重建

对原始的AlphaFold模型的改进支持了这样一种观点,即使用密度图重建AlphaFold模型创建的模板包含了来自该密度图的信息,可用于改进AlphaFold结构预测。使用密度图获得的AlphaFold模型也改进了重建的模型,迭代改进了AlphaFold模型,这支持了模型重建与AlphaFold预测协同的观点,产生了比单独任何一种都更好的新模型。

本文的观察结果与这种协同作用来自于为AlphaFold中使用的注意机制提供额外信息的想法一致,但也与其他机制一致。例如,另一个与我们的观察结果一致的假设是,AlphaFold能够改进与真实结构没有太大差异的模型,重建模型可以使其在AlphaFold的收敛半径内。

图1a-f显示,用本文的迭代过程得到的AlphaFold模型和图1c中的绿色模型与沉积的模型(棕色)更相似,而不是单独用序列创建的AlphaFold模型(图1a中的蓝色)或重建的模型(紫色)。图1g-i说明了通过迭代重建和建模对另一个AlphaFold预测的改进。图1j比较了没有考虑和考虑最近沉积的25个结构的密度信息获得的AlphaFold模型的准确性。

1:使用密度图进行迭代AlphaFold预测和模型重建。

使用在AlphaFold训练时不存在的结构进行验证

在上面描述的案例中,可能有关于正在建模的特定序列的信息出现在AlphaFold参数数据库中,因为在训练AlphaFold时,PDB中可能出现了类似的结构。这项工作比较了相同的AlphaFold预测,除了它们是通过有模板和没有模板进行的,所以这不会直接影响结论,即AlphaFold建模和使用密度图重建是协同的。

然而,有一种可能性是,在这些例子中包含密度信息允许AlphaFold预测使用一些关于类似结构的预先存在的信息,而不是真正地合并来自密度图的新信息。为了解决这种可能性,在进行AlphaFold训练时,对PDB中没有类似结构的结构进行了分析。使用的结构是细菌鞭毛基体的一个结构域。在AlphaFold训练时,具有最相似序列的PDB条目的序列标识仅为9%,并且具有非常不同的结构。AlphaFold可以准确预测该域的部分结构;然而,相对于低温电磁结构,两个反平行链的排列有明显的差异,螺旋的位置也有微小的差异。

使用鞭毛基体(7BGL)结构来测试在不训练AlphaFold的情况下,迭代的AlphaFold预测和模型重建是否有效。在这个测试中,从密度图自动构建的模型的片段被包含在模型重建中,并且只在AlphaFold建模的第一个周期中使用多个序列比对。选择这些选项是为了改进模型重建,并允许重建模型的构象来指导AlphaFold预测。

图2a显示,一个标准的AlphaFold预测导致了一个模型有一些正确的和一些本质上不正确的部分。值得注意的是,棕色沉积模型缺失残基285-315,在密度图中不可见。通过模型重建对AlphaFold模型的迭代,得到的模型与沉积的(7BGL)模型(图2b)更接近。这个迭代的AlphaFold模型比基于r.m.s.d.的原始AlphaFold预测(图2a)要准确得多,这消除了较大的差异。这些观察结果表明,即使在没有任何类似结构的情况下训练AlphaFold,也可以获得迭代AlphaFold模和使用密度图重建模型的协同作用。

2 :鞭毛基体结构域的迭代AlphaFold预测和模型重建。

应用于低温电子显微镜或晶体学图的自动分析

迭代预测和模型重建的一个直接应用是低温电磁或晶体密度图的自动分析。虽然有工具用于这个目的,但自动地图解释具有挑战性,特别是在没有高分辨率地图的情况下。上述迭代的AlphaFold建模和基于地图的重建过程的输出是一个预测的AlphaFold模型,该模型已经被定位为匹配地图中的密度。预测的模型可能仍然需要密度图指示的一些调整,这种调整可以通过自动细化或重建来进行。所得到的改进或重建的模型是对密度图的相应部分的自动生成的解释。因此,本文的过程也可以看作是一种自动解释密度图的方法,在过程中将密度图的信息合并到AlphaFold建模中。

图3a-d显示,使用图1中所示的SARS-CoV-2刺突蛋白结构的实验密度图,由两个自动工具自动生成的模型,未能创建类似于沉积结构的模型。图3e显示了与图1所示相同的低温电磁图分析的结果,这次是从自动地图解释的角度来看的。在结构未知的真实情况下,每个全密度图的提供没有任何修剪或掩蔽。在该图中要解释的一个链的序列被用来创建一个标准的AlphaFold预测。该预测模型被自动定向以匹配地图,重建以匹配地图中的密度,并包含在下一个AlphaFold预测中。总的来说,发生改进的周期数似乎变化很大,继续迭代可能是有用的,直到模型中的变化很小。这种变化似乎可能是由于我们的重建工具未能找到需要重建的部件的正确结构,而改进或新的重建方法可能会大大改善整个过程。

3 :当前自动地图解释工具对不清晰的图效果不佳,但可以通过迭代AlphaFold预测和模型重建加以改进。


这里描述的程序不是特定于AlphaFold,低温电磁地图或Phenix模型重建软件用于这项工作,本文期望的协同模型预测和模型重建使用密度图观察这里将一般,类似的结果可以获得使用其他模型预测和模型重建方法和使用其他类型的密度图,如那些在低温断层成像或晶体学。

在这里描述的测试案例中,已经使用AlphaFold预测了低温电子显微镜结构中的单个链,首先没有来自低温电子显微镜密度图中的信息,然后迭代地合并该图中的信息。在许多被检查的案例中,通过使用来自初始AlphaFold预测的模板和使用密度图的自动重建,改进了AlphaFold预测。在实践中,这整个过程可以作为结构确定的第一步,产生一个对接的AlphaFold模型,可以比没有密度图的预测模型更准确。一旦获得了这个对接的预测模型,它就可以手动重建。

教授简介:

Thomas C. Terwilliger

1978年获得哈佛大学物理学专业硕士学位,1981年获加州大学洛杉矶分校分子生物学专业博士学位。工作期间,Thomas和他的同事开发了算法和软件,用于分析来自蛋白质和核酸等大分子的X射线衍射和冷冻电镜数据,并确定它们的三维结构。该项目由LBL的Paul Adams领导,该项目已经生产了一个用于大分子结构测定的综合软件包。软件包包括Thomas的SOLVE / RESOLVE软件以及许多其他强大的算法,包括最大似然分子替换(兰迪·里德的相位器软件),完全最大似然改进(保罗·亚当斯,拉尔夫·格罗塞-昆斯特勒夫和帕维尔·阿福宁的phenix.refine),模型改进和验证(理查森实验室的摩尔概率软件)以及许多其他有用的工具。

参考文献:

Terwilliger, T.C., Poon, B.K., Afonine, P.V.et al.Improved AlphaFold modeling with implicit experimental information.Nat Methods(2022). https://doi.org/10.1038/s41592-022-01645-6

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容

  • Nat Methods | 原位“光学测序”探索基因表达状态空间高精地图 图灵基因2022-10-27 09:32...
    图灵基因阅读 140评论 0 0
  • 今天是农历十月初二 起床: 就寝: 天气: 心情: 纪念日: 任务清单 昨日完成的任务,最重要的三件事: 改进:1...
    零心落语阅读 180评论 0 0
  • 焦煤从指标上来看,四小时级别以下的周期,基本上全部已经翻多了,目前唯一差的一个周期就是小时图的翻红,但是庆幸的是,...
    侃金论汇阅读 95评论 0 0
  • 10月26日学习收获 姓名:朱峻锋 学习内容:《月子中心服务合同、月子房套餐的讲解》 一、为什么要签合同? 目的:...
    朱队长爱学习阅读 125评论 0 0
  • 作者,Evil Genius 国庆第一天,我们不搞新的,来一篇大盘点,盘点的内容包括以下的几点,包括应用与技术,大...
    单细胞空间交响乐阅读 3,176评论 2 13