Nature | 人工神经网络设计新蛋白质: 合成生物学的革命
原创 风不止步 图灵基因
收录于话题#前沿分子生物学技术
撰文:风不止步
IF=49.962
推荐度:⭐⭐⭐⭐⭐
亮点:
文章将SCUBA(Side Chain-Unknown Backbone Arrangement)驱动的随机动力学(SD)模拟与数据驱动的固定骨架氨基酸序列选择程序ABACUS2一起用于设计具有拓扑结构的蛋白质,这些蛋白质满足各种设计规范,是新颖的,是通过使用SCUBA对可设计骨架空间的计算探索从头设计的。
2022年2月9日,中国科技大学生命科学学院计算生物学教授刘海燕博士等人在《Nature》上发表了一篇“A backbone-centred energy function of neural networks for protein design”的文章,文章展示了一个名为SCUBA(代表侧链-未知骨架排列)的统计模型,该模型使用神经网络形式的能量条款来实现这一目标。通过两步法学习,包括核密度估计和神经网络训练,能分析性地代表已知蛋白质结构中的多维、高阶关联性。
计算蛋白质设计已经显示出巨大的潜力,突破性的研究显示了具有新结构和功能的新蛋白质的设计,其中大部分是使用最先进的RosettaDesign方法进行。新骨架是通过参数化改变现有结构模块(或模板)之间的相对几何形状来设计螺旋束或重复蛋白,或者通过组装现有结构的肽片段来建立。尽管最近有所改进,这些生成骨架的方法对模板的依赖性仍然严重限制了可能的新结构的可用范围,可能缩小了可设计的功能活动的范围。
(图1:以骨架为中心的能量景观的明确表示促进了无模板的蛋白质设计)
决定可设计性的以骨架为中心的能量表面明确表示可能为无模板的蛋白质设计工作流程提供基础;这从根本上区别于现有的方法,并补充了现有方法。建立这种表示方法的进展缓慢,是由于缺乏表示相关分子相互作用的方法,以达到从头设计蛋白质任务所需的全面性和精确性水平。早期研究已经探索简化的骨架能量表面,但只是为验证自然骨架式的广义最小值的存在,也就是说,不是在尝试骨架设计的情况下。
(图2:新的蛋白质EXTD-3整合了预先存在的和新设计的部分,形成了自然界中尚未观察到的单一刚性结构)
SCUBA模型旨在表示对骨架可设计性至关重要的因素,包括肽骨架的局部构象偏好和氢键几何形状,以及螺旋状连接和紧密排列的侧链所需的骨架间空间,这样做既全面又精确,支持新的蛋白质设计。为实现这一目标,用统计能量项或电位来表示各种相互作用,用一种名为NC-NN的一般方法进行训练,这表示一个两步过程,首先通过基于核的密度估计(即邻接计数)从原始结构数据中估计统计能量值,然后训练神经网络(全连接三层感知器)来表示电位。NC-NN解决构建统计潜力的一个主要技术挑战,所得到的潜力除了是连续的,并提供容易计算的函数值(和导数)用于结构取样和优化外,还可以高保真地表示真实结构数据的复杂、高维和高度相关的分布。
(图3:成功设计的两层α/β蛋白和四螺旋束蛋白)
如果存在大量的氨基酸序列可以自主地折叠到一个蛋白质骨架结构中,那这个结构就是可设计的。有人认为,骨架的可设计性主要由与侧链无关或与侧链类型不敏感的分子相互作用所支配,这表明设计新骨架(准备用于氨基酸选择)的方法是基于对骨架中心能量表面的连续采样和优化。然而,一个足够全面和精确的能量函数还没有为此目的而建立。
(图4:成功设计的折叠成新结构的新蛋白质的结构)
文章报告了9个新蛋白质的晶体结构,每个蛋白质都有独特的设计序列和结构。这些蛋白质的骨架是用SCUBA高精度设计的,其中4个具有新颖的、非自然的整体结构。通过避免使用现有蛋白质结构的片段,SCUBA驱动的结构设计促进了对可设计骨架空间的深远探索,从而扩展可进行重新设计的蛋白质的新颖性和多样性。该方法与现有的蛋白质设计方法有许多不同之处。当使用SCUBA时,主干结构被连续采样和优化,并且具有完全的灵活性。此外,以骨干为中心的SCUBA模型在骨干设计阶段不需要搜索序列空间。这两个特点共同支持了对自然界中未曾观察到的全新的主干结构的轻松探索。
研究中产生的新型结构的蛋白质清楚地表明了该方法对于设计比自然界中观察到的更广泛的蛋白质几何结构的效用。在设计功能蛋白时,能量功能驱动的骨架取样和优化可以很容易地进行调整,以促进对结构空间的广泛探索(例如,通过应用增强的取样技术)和对设计结构的精确控制(例如,通过应用功能相关的约束)。这些方法可以大大扩展新蛋白质设计的结构多样性和功能。
教授介绍
刘海燕中国科技大学生命科学学院计算生物学教授
研究内容:分子动力学模拟;蛋白质设计;合成生物学
研究兴趣:开发和应用计算工具来研究生物分子的结构、动力学和相互作用。当前一个重点是开发有效和准确的方法来模拟溶液中的构象平衡,并将这些方法应用于力场改进和功能研究。另一个重点是改进蛋白质设计,包括统计能量函数、负设计和模块化设计。
为测试和/或应用这些工具,与实验者合作(蛋白质动力学和构象平衡),或进行实验(蛋白质序列设计)。例如,为了有效筛选新的和特定的分子相互作用对设计高度集中的序列库特别感兴趣。尝试将这种设计/筛选的相互作用与其他分子模块整合,以创建可用于合成生物系统的人工信号处理蛋白。
参考文献
Bin Huang, Yang Xu et al.A backbone-centred energyfunction of neural networks for protein design.(2022)