AlphaFold2 IDR 复数预测
这是我们之前关于 AlphaFold2 如何擅长从序列中识别无序蛋白质区域的观察的后续。有关 AlphaFold2 如何用作二元无序预测的详细信息,请在此处阅读我们的注释:https : //github.com/normandavey/ProcessedAlphafold
在这里,我们评估了可以从 AlphaFold2 对无序蛋白质如何相互作用的预测中得出的信息。鉴于测试集的限制、运行时间和无序蛋白质相互作用的复杂性,我们没有展示全面的分析。相反,我们专注于突出显示各种无序蛋白质结合的选定示例。
AlphaFold 接受过训练,可以从单体形式的序列中识别蛋白质的结构。然而,在 AlphaFold2 发布后不久,很明显在一些情况下,即使不重新设计或重新训练算法,AlphaFold 也可以成功预测蛋白质复合物的结构。使用灵活的接头连接两个或多个蛋白质并将其用作输入可以通过共折叠蛋白质来模拟蛋白质之间的相互作用。这为探索蛋白质-蛋白质相互作用开辟了令人兴奋的可能性。
固有无序蛋白质/区域 (IDP/IDR) 经常通过与其他蛋白质伙伴的相互作用发挥其功能。短结合 IDR 通常包含短线性基序 (SLiM),其中与伴侣折叠域的相互作用由几个残基驱动。SLiMs 的结合结构可以是螺旋状的、不规则的,或者它们可以在伙伴域的现有β折叠中形成额外的β链。更长的 IDR 可以包含 SLiM 阵列,并可以形成更长的结合区域,结合形式的二级结构含量变化很大。IDR 还可以通过彼此相互作用形成同源或异源寡聚复合物来形成稳定的结构。
在这里,我们选择了 14 个涉及一个或多个 IDR 的复合体案例。这些复合体中的每一个的结构都已通过实验确定并在 PDB 中。我们一一浏览这些复合体,描述它们的区别特征,并看看 AlphaFold2 是如何预测实验复合体的。在这里,您可以在交互式结构查看器中并排或叠加查看预测和确定的结构:http : //slim.icr.ac.uk/projects/alphafold? page= alphafold_IDR_interface_prediction
在示例之后,我们总结了似乎影响 AlphaFold 成功识别正确复杂结构的因素。
所有 AlphaFold 预测都是使用 PDB 文件中定义的序列(不包括修饰的残基和其他分子)运行的。预测是由 Sergey Ovchinnikov (@sokrypton)、Milot Mirdita (@milot_mirdita) 和 Martin Steinegger (@thesteinegger) 使用 Google Colab 笔记本完成的。归功于 Minkyung Baek (@minkbaek) 和 Yoshitaka Moriwaki (@Ag_smith) 以及 AlphaFold2 中蛋白质复合物预测的概念验证。
使用单体/同质低聚物的笔记本预测同质低聚物,可在此处访问:https ://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
使用专用笔记本预测异寡聚体,可在此处访问:https ://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2_complexes.ipynb在二聚体的情况下,使用默认设置。对于更高阶的低聚物,单独使用一条链(如果只有一条,则通常使用 IDR),其余链使用长接头连接(几个“U”或“SG”的几个重复)
在每个示例中,折叠的蛋白质域以表面表示形式显示,IDR 以带状形式显示。AlphaFold 预测以棕褐色显示,而实验确定的结构以紫色(或类似)颜色显示。在低于 AlphaFold 的所有情况下,几乎完美地预测折叠域的结构(通常在 1-2A RMSD 内)。这些预测结构没有单独显示,因为它们的表面与从实验结构产生的表面重合。
NRIP1 中的 NRBOX 基序与 ERR3 结合
定义: 形成两亲性螺旋的短基序结合到伴侣结构域表面上明确定义的单个疏水口袋中。组成:1 个有序蛋白质 + 1 个 IDR PDB:2gpo
结果: 预测和实验配体构象之间的RMSD:0.718A 在原始结构中,只有核心基序是可见的,AlphaFold 还预测了侧翼区域的螺旋结构。这是因为 AlphaFold 需要为所有输入残基分配坐标;然而,它为该区域分配了一个低 pLDDT 分数,正确地标记了它是一个低置信度结构预测(低 pLDDT 是一个很好的无序预测器)。在负责亲和力/特异性的基序区域上,AF 模型甚至可以正确预测侧链构象。
RanBP2 SIM(SUMO 交互基序)绑定到 SUMO
定义: 短基序在伙伴结构域的β 折叠中形成附加链(β 增强)。组成:1 个有序蛋白质 + 1 个 IDR PDB:2las
结果: 预测和实验配体构象之间的 RMSD:1.279A AlphaFold 正确识别了核心基序中的 β 增强和侧链构象。它确实错过了边缘的一些稳定接触,最值得注意的是它将 C 端 Phe 置于天然结合口袋的外部(在图像的右上角向上翻转)。AlphaFold 相应地将较低的 pLDDT 值分配给肽的末端区域。
组蛋白去乙酰化酶 4 14-3-3 磷酸基序与 14-3-3gamma 结合
定义: 与 14-3-3 结构域内的凹槽结合的短 IDR,采用不规则构象。相互作用需要磷酸化的丝氨酸。组成:1 个有序蛋白质 + 1 个 IDR PDB:3uzd
结果: AlphaFold 正确识别了结合槽并正确地为肽分配了线圈状构象,但无法将肽安装到正确的位置。原因之一可能是 AlphaFold 无法模拟修改后的残基(原始结构中的 pSer 和预测结构中的 Ser 以红色显示)。
使用磷模拟物(在肽中将 Ser 转换为 Glu 后对相互作用进行建模)稍微改善了方向,但 pSer 和 Glu 占据非常不同的位置,并且置信度得分没有提高,因此这可能是由于随机机会。
pKID 绑定到 KIX 域
定义: 无序的 KID 区域在磷酸化后与 KIX 结构域结合。pKID采用螺旋结合结构与 KIX上的两个不同补丁结合。相互作用是磷酸依赖性的,KIX 在未结合的形式下并不完全稳定,因此域结构的预测可能比平时更具挑战性。组成:1 个有序蛋白质 + 1 个 IDR PDB:1kdx
结果: AlphaFold 正确折叠了 KIX 域,它也正确地将 KID 折叠成非常接近实际绑定结构的螺旋结构。但是,它将 KID 置于 KIX 域上完全不同的表面。与之前的错误相反,这里的 AlphaFold 为预测分配了高置信度。有趣的是,AlphaFold 模型中 KID 占据的区域是真正的结合位点,结合 FOXO3 TAD 区域的 C 端部分显示出与预测模型中的 KID 高度相似(PDB:2lqh)(类似于赖氨酸 N-甲基转移酶 2A 肽 (PDB:2agh) 和 p65 肽 (PDB:5u4k) 结合结构)。
RelA 的 TAD 与 CREB 结合蛋白 (CBP) 的 TAZ 结构域结合
定义: 无序的 RelA 结合区明显长于前面的例子。它环绕 TAZ 域,在4 个不同的斑块处形成接触,在这 4 个位点采用主要螺旋构象。组成:1 个有序蛋白质 + 1 个 IDR PDB:2lww
结果: AlphaFold 正确折叠了 CBP 的 TAZ 结构域,即使天然结构包含 3 个 Zn2+ 离子,AF 无法对其进行明确建模(但是,它被训练为即使没有离子存在,也能正确预测含离子蛋白质的结构)。AlphaFold 还正确识别了四个结合表面,并且还在这些位点将 RelA 折叠成螺旋构象。然而,在预测结构中,RelA 的方向错误。在下图中,测量的 RelA(紫色)逆时针环绕,两个终端都在底部。预测的 RelA 以相反的方向包裹,两个终点都在顶部。AlphaFold 再次为肽预测分配高置信度分数。
细胞周期蛋白-A2 与 Cdc20 结合
定义: 细胞周期蛋白-A2 的无序尾部与 Cdc20 的 β 螺旋桨结构域结合,使用三个基序与三个独立的口袋结合。IDR 的结合结构是线圈状的,没有任何规则的二级结构,三个基序之间的接头即使在结合时也保持无序。组成:1 个有序蛋白质 + 1 个 IDR PDB:6q6g
结果: AlphaFold 几乎完美地折叠了域;但是,它不能在域表面折叠 IDR。它确实识别了 IDR (AALAVL) 中的疏水贴片,并且它靠近该位的真正结合口袋,但是处于错误的构象(α 螺旋而不是线圈状构象)。IDR 的其余部分没有与域的预测联系。
Phactr1 绑定到 PP1
定义: Phactr1 的无序部分环绕 PP1 域,在几个点建立联系。N-末端区域在β-增强中采用具有两个短位的线圈状结构。C-末端区域采用主要螺旋构象。组成:1 个有序蛋白质 + 1 个 IDR PDB:6zee
结果: AlphaFold 正确折叠了域,并且非常精确地找到了 IDR 的正确位置和方向 (RMSD=0.903A)。高精度可能与 IDR 不对称(一端为螺旋,另一端为β)、采用规则二级结构且相当长有关。
p27 与 CDK2:cyclinA 复合物结合
定义: p27 完全无序,具有与有序 CDK2:cyclinA 二聚体结合的长83 个残基拉伸。结合后,p27 采用细长结构,其中包含几个规则二级结构的短片和较长的螺旋,仅形成非常弱的接触,并作为 N 和 C 端结合区域之间的结构接头。组成:2 个有序蛋白质 + 1 个 IDR PDB:1jsu
结果: AlphaFold 正确折叠域并且它们具有正确的相对方向。它还为无序的 p27 分配了一个结构,该结构非常接近实际的结合构象;然而,它不能在域二聚体的表面折叠它。它确实找到了 C 端位的正确结合口袋,但预测 p27 与域没有联系。AlphaFold 在预测中的置信度很高,反映了 p27 局部结构的置信度(确实接近实际绑定的),而不是它与折叠域的关系。PAE 图清楚地表明 AlphaFold 正确评估了 p27 的相对方向(下图的末尾)与二聚体的位置相比,置信度非常低。
口蹄疫病毒衣壳蛋白中与整合素 $\alphaV$\beta6 结合的 RGDLxxL 基序
定义: 在短期IDR包含RGD基序结合到两个有序的整合二聚体亚基精氨酸接触到$ \ alphaV亚基和天冬氨酸通过接触$ \ beta6亚单位协调二价阳离子嵌入在整合领域的互动。此外,RGD 基序的 C 端侧翼形成一个短螺旋,与 $\beta6 亚基上的两个小疏水补丁结合。组成:2 个有序蛋白质 + 1 个 IDR PDB:5nem
结果: AlphaFold 几乎完美地折叠了整合素的两个折叠亚基 (RMSD=0.552)。肽没有折叠到结合槽中;AlphaFold 无法识别肽适合的结合构象或结合口袋。这可能是因为肽段很短,并且与结构域的相互作用是通过 AF 无法模拟的二价阳离子的配位介导的。与 p27 示例相反,这个 IDR 足够短,AlphaFold 无法学习绑定构象。
GCN4原型亮氨酸拉链
定义: 一种卷曲螺旋状二聚体,由同一两性螺旋的两个拷贝组成,通过主要由 Leu 残基介导的几种疏水相互作用结合在一起。组成:0 个有序蛋白质 + 2 个 IDR PDB:1zik
结果: AlphaFold 获得接近完美的结构 (RMSD=0.311A),包括将复合物固定在一起的 Leu 侧链。它确实为残基赋予了很高的置信度,但是,它确实将两个螺旋的相对方向标记为非常不确定(参见右下角的 PAE 图)。这也体现在预测结构中,因为两个螺旋的方向比实验结构中的彼此相距更远一些。事实上,在同一个复合体的几个预测结构中,两个螺旋的距离甚至更远,AlphaFold 预测它们之间没有接触。
p53 四聚化结构域
定义: p53 的 C 端四聚化区域的四个拷贝形成二聚体的二聚体,采用具有高螺旋含量的交织结构,并用短的β折叠进一步稳定。组成:0 个有序蛋白质 + 4 个 IDR PDB:2j0z
结果: 四个链的构象和相对取向都接近完美(RMSD=0.909A)。与 GCN4 示例相反,这里的 AlphaFold 不仅对残基的构象很有信心,而且对四个链的相对位置也很有信心(参见右下角的 PAE 图)。这种差异可能是由于 p53 四聚体是一个更加交织的结构,在沿 IDR 的结合结构方面具有不对称性。
自噬 SNARE 核心复合物 (Vamp8 / Syntaxin-17 / SNAP29)
定义: 经典四聚体卷曲螺旋(具有 SNAP29 的 2 个区域和其他蛋白质的 1-1 个区域)。由于 SNARE 复合物组装和拆卸,未结合的无序状态在生物学上是相关的。四聚体组装成四个长而对称的螺旋的紧密堆积的完全平行的盘绕线圈。组成:0 个有序蛋白质 + 4 个 IDR PDB:4wy4
结果: AlphaFold 正确地将四个链组装成一个整体的卷曲螺旋状构象(参见顶部结构图),并且对单个残基的构象具有高置信度(参见左下角的 pLDDT 图,低置信度区域是接头,它们是从结构中移除)。链条 C 和 D 相对于彼此正确折叠和定位。然而,AlphaFold 表明它对链 A 和 B 的相对方向的置信度较低(参见右下角的 PAE 图)。相应地,这两条链都处于与其他链几乎没有接触的构象中,并且链 A 的方向相反,与其他链相比反向平行。
Rb:E2F1:DP1 异源三聚体
定义: 甲高度交织三聚复合物与三个深入审查作为单个折叠单元。所得结构相当紧凑、高度不对称并且具有较高的规则二级结构含量。组成:0 个有序蛋白质 + 3 个 IDR PDB:2aze
结果: AlphaFold 对所有三个链(总体 RMSD=0.996A)给出了近乎完美的预测,包括它们的构象和相对方向。AlphaFold 还为预测分配了高置信度。
结合血管性血友病因子 (vWF) 的 A3 结构域的胶原三螺旋
定义: 胶原三螺旋由三个相同的链构成,具有非常高的甘氨酸和脯氨酸含量(一些脯氨酸被修饰为羟脯氨酸),每条链都采用类似PPII 的构象。这种三螺旋需要折叠成正确的构象,以创建 vWF 结构域的结合位点,它可以通过与三个胶原链中的两个接触来结合。实际上,这是按顺序发生的,AlphaFold 需要在一个步骤中构建整个复合体。组成:1 个有序蛋白质 + 3 个 IDR PDB:4dmu
结果: AlphaFold 能够近乎完美地折叠来自 vWF 的域(域的RMSD=0.592),但无法组装胶原三螺旋——尽管它对胶原残基具有很高的置信度。看起来高 Pro/Gly 含量与 AlphaFold 的折叠结构不兼容。缺乏疏水核心、规则的二级结构和序列复杂性可能是导致失败的原因(注意:即使没有 vWF 结构域,AlphaFold 也无法组装胶原蛋白三螺旋)。
预测绑定 LxxLL 基序的结构
在之前的所有示例中,结构均取自 PDB(均在 2018 年之前发布),因此它们都是 AlphaFold2 训练集的一部分。为了了解 AlphaFold 在预测新的模体边界结构方面的效果如何,我们在 LxxLL 模体的 10 个实例(列在ELM 数据库中)上运行了它) 没有解出的结构。所有这些实例都已被证实为真阳性,并且由于它们都包含相同的基序,我们希望它们都与域表面上的相同疏水凹槽结合。在所有 10 个测试示例中,AlphaFold 正确地将肽折叠成螺旋构象并将它们放入正确的结合口袋中(新预测在透明卡通中,NRIP1 LxxLL 基序(PDB:2gpo)的实验验证结构以紫色显示):
基于这些示例,IDR 的几个属性似乎可以更好地预测复杂结构:
在结合的 IDP 构象(螺旋构象或 β 增强)中存在规则的二级结构
明确的疏水结合沟
不对称结合的 IDP 结构(就沿 IDR 序列的二级结构元素而言)
其他似乎降低成功预测机会的属性:
短 IDR
不规则束缚结构
磷酸化依赖性结合
界面中存在离子
高度对称的束缚结构,例如长螺旋或短相似结构元素的阵列
一般来说,AlphaFold 在预测结构中 IDR 是多 IDR 单折叠单元(例如 p53 四聚体或 E2F1-DP1-Rb)的一部分或 IDR 与疏水性驱动的折叠域结合的结构方面表现非常好。在其他情况下,AlphaFold 通常找不到正确的结合模式,但即使如此,它也经常正确识别结合的 IDR 结构(或至少二级结构的存在/不存在)和域表面上的结合位点(但并不总是正确的——例如在 KID/KIX 复合体中)。