蛋白质的功能通常与其结构密切相关,通过解析蛋白质的三维结构,我们可以获得有关蛋白质功能区域、构象变化和与其他分子的相互作用的信息。蛋白质解析的精度在基于结构的药物研究中至关重要,甚至直接影响药物设计的成功率。
蛋白质结构解析工作中,X-射线衍射(XRD),冷冻电子显微镜(Cryo-EM)和核磁共振(NMR)是三种常用的实验技术,各自具有不同的特点和适用范围。Cryo-EM因其不需要蛋白质结晶,在超大分子、膜蛋白等的结构解析上非常有优势。2010年之后,技术的进步使Cryo-EM的解析精度有了极大的提高,使其在结构解析中占有越来越重要的地位。
在EMDB数据库中,分辨率处于3-4 Å之间的中等精度结构占据了绝大多数。通常,分辨率大于1.5 Å时,接触界面上的构象就可能产生不确定性,进而造成结构的可用性下降,中分辨率的Cryo-EM结构显然在此之列。在Cryo-EM结构迅猛增长的背景下,分辨率的下降究竟会给基于结构的药物设计产生什么影响,有必要进行定量描述。下图为电镜解析出的一个蛋白质结构,黄色的区域为密度图,内部绿色的部分为拟合的蛋白结构。可以看到,在2.58Å的分辨率下,仅能看出肽链的大致走向,而侧链几乎很难在密度图中反映出来。
通常情况下,可以使用Re-docking验证已知结合模式的准确性。保留结合状态下蛋白质骨架与侧链的结构,通过将已知的结合模式的配体重新对接到口袋中,比较重新对接得到的结合模式与已知结构的一致性,可以评估结合模式的可靠性和准确性。
Seho等人基于以上问题做了一个benchmark。他们选取了50个分辨率在1.5–3.0 Å的中等精度结构,以其中的配体进行re-docking。另外,选取了这50个蛋白与其他配体结合或无配体的、分辨率更低(在3.0–5.0 Å之间)的结构进行交叉对接验证,整个数据集共有310个结构。对接软件选取了最常用的Autodock Vina。
对接成功的评价标准为:top 1配体RMSD ≤ 2.0 Å(re-docking)、top 5配体RMSD ≤ 2.5 Å(cross-docking)。可以看到,高精度的晶体结构re-docking效果较好,成功率达到了68%,而更接近真实应用场景的电镜结构的cross-docking成功率仅有20%。
虽然这种方法有其可行性,但对复合物的精度进行评估是相对困难的,因为当电子云密度图的精度不够高时,它就可以容纳配体的多个构象。因此,盲目地将PDB数据库中所有复合物的结构都作为真值是非常武断的做法。
于是,他们采取了另一种指标——接触精度——来评价对接准确度,而没有使用流行的RMSD,这样就可以假定PDB数据库中的结构为真值,但将误差降低到可以容忍的范围内。
接触精度指标衡量的是配体中的原子与蛋白质中的残基的接触情况。在原始复合物结构中,配体原子与残基间的距离小于4 Å即被视为接触。他们对于对接成功的定义是:对接能够恢复原始结构中超过50%的残基接触(对应到RMSD大约是2.5 Å)。
对不同精度的电镜结构的对接成功率进行评估发现,当解析精度优于3.0 Å时,成功率超过了60%,而当精度低于4.0 Å时,对接几乎总是失败的。不过可以看到,对于高精度的晶体结构,对接成功率相当高,几乎接近80%,因此造成对接失败的原因很可能是电镜结构的结合口袋处的残基构象是错误的。
这时你可能会问,蛋白质的氨基酸侧链是具有柔性的,配体的结合也可能会诱导侧链构象发生变化,那么错误的构象也可能会因配体的结合变为正确的,如何证明侧链构象错误会导致对接失败呢?实际上,虽然氨基酸侧链具有一定的柔性,但在配体-受体的识别过程中,为了保证体系产生最小的熵损失,蛋白质侧链需要尽量保持其构象不变,否则依然会引起体系结合自由能的损失,进而表现为配体亲和力下降。
Seho等人对他们数据集中的有限样本的分析也证明了这一点,对绝大多数case而言,在口袋处仅仅有10%-20%的侧链会因为配体的结合产生构象变化,而再看电镜解析的精度较差的结构,cross-docking数据集中侧链变化的比例大幅度增加。
既然如此,能否对低精度的结构进行侧链优化,提升其在SBDD中的可用性呢?在Rosetta中,可以在结构优化的同时将密度图添加为打分和限制条件(tutorial看这里),这种优化策略称为密度引导的局部优化(density-guided local optimization)。下图是使用FastRelax Mover进行密度引导优化前后的对接成功率对比,可以看到,对接成功率不仅没有上升,反而还下降了。并且不仅是GALD(Rosetta GALigandDock)还是Vina,都有大幅下降。可见,简单地优化受体构象并没有办法在对接任务上抢救一下中分辨率的结构。
不少对接软件都能进行柔性对接,即允许氨基酸侧链的构象在对接过程中进行改变。直接优化蛋白质不能增加对接成功率,柔性对接的效果如何呢。如下图所示,即便尝试了许多种不同的柔性对接算法,总体的对接成功率仅会因受体柔性提升约10%,并且这10%基本上还是由于配体的结合会让肽链骨架产生微小的变化带来的。前面提到过,配体结合并不会让侧链发生过多改变,因此对接软件的柔性对接策略也基本是基于这一假说,所以柔性对接对提升中分辨率结构的对接效果其实是没有什么帮助的。
不过我们确实可以看到,高精度的晶体结构的对接成功率是要显著高于中分辨率的电镜结构的。因此,对于中分辨率的结构,为了让他们能够在SBDD中真正可靠地应用起来,最需要解决的问题就是找到一种可靠的优化算法,能够尽量让结合口袋处的侧链构象接近高精度晶体结构中的构象。AlphaFold2在结构预测中的卓越表现大家有目共睹,也许DeepLearning也能够在这方面展现出其巨大的潜力。
技术的进步使越来越多的蛋白质结构被解析出来,同时,软件也在朝着易用的方向发展,做分子对接的门槛越来越低,更多化学家都可以使用计算技术来辅助自己的工作。不过,结构的分辨率是一个新手很容易忽视的参数,Seho等人研究分辨率对分子对接的影响专门采用了新手常用的模式,即找一个最popular的对接软件,把受体配体丢进去对接一个结果出来看看结合能。实际上计算技术目前的发展远没有达到这么智能的程度。许多算法能解决的问题往往只局限在一个很细的问题上,如果用户对算法是一知半解,又没有一套科学的方法论看待与解释计算结果,很可能会因盲目相信计算结果而对自己的工作产生负面影响。
参考文献
- M. Sitzmann, I. E. Weidlich, I. V. Filippov, et al., J. Chem. Inf. Model. 2012, 52(3), 739.
- Lee, S., Seok, C., Park, H., J. Comput. Chem. 2023, 44( 14), 1360.