抽象的
AlphaFold 已经解决了多种蛋白质的蛋白质结构预测问题。最近,人们非常兴奋地希望借助 AlphaFold 的成功预测 RNA 的 3D 结构。RNA 预测方法使用多种技术,从基于物理的方法到机器学习方法。我们认为,短期内存在一些挑战阻碍了基于深度学习的 RNA 方法(如 AlphaFold)的成功开发。从广义上讲,挑战在于结构和比对的数量有限,这使得需要大量数据的深度学习方法不太可能成功。此外,现有的结构和序列数据存在一些问题,因为它们通常质量不足、偏差很大且缺少关键信息。在这里,我们详细讨论了这些挑战,并提出了一些补救措施。我们相信可以创建一种准确的 RNA 结构预测方法,但这需要解决几个数据质量和数量问题,使用简单的序列比对以外的数据,或者开发新的数据需求较少的机器学习方法。
图形概要
介绍
RNA 分子在细胞内发挥许多关键功能。也许最引人注目的例子是在翻译中,其中已证明构建蛋白质的能力是由核糖体颗粒协调的,关键的催化步骤由核糖体 RNA 本身执行,氨基酸残基由转移 RNA 特异性传递。mRNA 和病毒的非翻译区含有许多调节元件。还有大量的非编码 RNA (ncRNA),尽管经过数十年的研究,我们对它们的功能仍知之甚少。一个例子是动物基因组中大量的长链非编码 RNA。这些 RNA 基因数量众多,可能超过蛋白质编码基因的数量,并且似乎发挥着一系列微妙的调节作用([1](javascript:;) )。许多 ncRNA 功能依赖于 RNA 的稳定(核糖体、tRNA)或瞬时(剪接体)结构。了解 RNA 结构可以回答基本的科学问题,对设计新型药物和疗法大有裨益。结构可以帮助回答进化的基本问题,即生命是否始于 RNA,即“RNA 世界”([2](javascript:;))或其他可能是肽型分子。合理的药物设计无疑将受益于对 RNA 结构的可靠预测。越来越多的人从不同的角度来探讨细菌耐药性问题,但对核糖体颗粒的特定抑制为有效治疗提供了一种有希望的途径([3](javascript:;))RNA疗法正受到大型制药公司的更多关注([4](javascript:;))。
RNA 构建块核苷酸具有复杂的化学性质,包含芳香族含氮碱基、手性核糖环和磷酸基团。碱基能够通过范德华相互作用相互堆叠,但它们也带有较大的电矩并能形成强氢键。核糖环通过其折叠强烈限制主链几何形状;RNA 中主要为 C3'-内折叠,但核糖也可以局部采用 C2'-内折叠,从而彻底改变主链几何形状。由于磷原子中的 d 轨道,磷酸基团可能是 RNA 分子结构最复杂的部分。描述磷酸二酯键 O3'-P 和 P-O5' 周围构象的两个扭转角(称为 ζ 和 α)都倾向于 -gauche 方向,但扭转可以采用任何其他 gauche、trans 和 -gauche(+60°、180° 和 –60°)构象的组合。正常情况下,核酸中的磷酸盐带电,使整个 RNA 或 DNA 分子带强负电,需要通过相互作用的正离子来中和。每个磷酸盐的单个负电荷分布在其未结合的氧原子之间,这些氧原子具有高度极化性,能够与其他 RNA 原子、蛋白质和水形成氢键,还能与氨基酸、其他细胞成分(如胺)以及金属形成电荷相互作用。RNA 分子参与的所有分子内和分子间相互作用决定了它们的结构。图 [图 1](javascript:;)至少说明了部分物理上复杂的相互作用,它们是在 4qvi 晶体结构中 80nt rRNA 片段的一个小的六核苷酸环中观察到的([5](javascript:;))。
RNA 分子中相互作用的示例。一些最重要的相互作用以虚线突出显示:碱基配对氢键为深红色,糖碱基堆积为深紫色,磷酸盐碱基氢键为黄色,水形成的氢键为青色(水被描绘为青色球)。底部对是典型的沃森-克里克对,上方对是通过与桥接水分子相互作用“锁定”的 G-U 对。G2147 处于顺式方向,二核苷酸 C2146-G2147 处于左手 Z 型构象(注意 C2146 的核糖的反转方向通过将其 O4' 堆叠到鸟嘌呤芳香环上进一步稳定)。显示的是来自嗜热菌的 23S RNA 的 80 核苷酸长片段的六核苷酸环,与核糖体蛋白 L1 复合(PDB ID:4qvi)。
RNA 3D 结构预测:最新进展
20 世纪 60 年代,人们首次尝试基于序列同源性在计算机上重建RNA 分子的三维结构([6](javascript:;) )。随着越来越多的实验确定 3D RNA 结构,这些努力变得越来越频繁。计算机模型的构建主要依赖于在计算环境中手动操作结构模板。第一个针对 RNA 三级结构建模的交互式工具于 1998 年发布([7](javascript:;) )。几年后,开始出现能够完全或半自动地从 RNA 序列处理成 3D 模型的系统,使用从头算折叠,例如 FARFAR([8](javascript:;) )、iFoldRNA ([9](javascript:;) )、NAST ([10](javascript:;) )、SimRNA ([11](javascript:;) ) 和 Vfold ([12](javascript:;) );或同源性建模,如 RNABuilder ([13](javascript:;) ) 和 ModeRNA ([14](javascript:;) ),或 MC-Fold/MC-Sym 中使用的基于片段的组装方法 ([15](javascript:;))、组装([16](javascript:;))、RNAComposer([17](javascript:;) ) 和 3dRNA ([18](javascript:;))。近两年,基于深度学习(DL)的预测模型开始涌现。Townshend等人的论文([19](javascript:;) ) 提出了一个深度学习模型,用于预测新的计算机生成的 3D RNA 结构的质量 (RMSD)。与此同时,其他研究 ([20–22](javascript:;) ) 描述了使用深度学习进行 RNA 结构端到端 3D 预测的方法。
随着用于预测 3D RNA 结构的计算机方法越来越多,所生成模型的可靠性和质量问题变得越来越重要。为此,RNA-Puzzles 于 2010 年启动,这是一项集体盲测实验,旨在严格评估 3D RNA 结构的预测([23](javascript:;))。在过去的12年中,RNA-Puzzles组织了38场竞赛([24](javascript:;) ) 和两个专门项目——未知 Rfam 家族和 SARS-CoV-2 非翻译区的结构建模 ([25](javascript:;) )。 在每个项目中,参与者预测单个 RNA 靶标的三级结构。 预测主要通过将其与参考结构进行比较来评估,一旦后者在蛋白质数据库中发布,目前已知 34 项挑战的评估(截至 2023 年 2 月的数据)。 评估使用了几种相似性和距离测量方法,其中一些是专门为 RNA 开发的([26–30](javascript:;))。例如,相互作用网络保真度(INF)是一种相似性度量,它对碱基对、沃森-克里克(INF-WC)、非沃森-克里克(INF-NWC)和堆叠(INF-stacking)的预测进行评分。如图所示 [2](javascript:;),在 RNA-Puzzles 挑战赛的 12 年中,INF-WC 通常在 0.75 到 1.0 之间,表明大多数模型都能准确预测双螺旋茎基序(INF = 1 表示理想预测,0 表示失败)。然而,INF-NWC 在大多数预测中的得分接近 0,这令人担忧,因为非沃森-克里克碱基对在确定 RNA 的整体折叠、影响茎堆积和连接拓扑方面起着至关重要的作用。RMSD 表示预测的 3D 坐标与参考结构的坐标之间的差异,仅显示少数模型的 RMSD <5Å。对于大多数 RNA-Puzzles,RMSD 值的分布是多峰的,分布范围很广。因此,尽管建模方法取得了重大进展,但预测具有类似天然特征的 RNA 坐标仍然具有挑战性,需要提高准确性和质量([31](javascript:;))。
从开始到 2022 年提交给 RNA-Puzzles 的预测的选定评估指标值的分布。每个谜题旁边括号中的数字表示每个谜题中所有结构的核苷酸总数。
RNA-Puzzles 计划采用了 CASP 中开发的许多机制,CASP 是两年一度的蛋白质结构预测关键评估实验。第一届 CASP 竞赛于 1994 年启动([32](javascript:;)),在蛋白质结构 3D 计算机建模的开创性研究开始后的四分之一世纪([33](javascript:;))。27 个参赛小组被要求预测 33 个氨基酸序列的原子坐标。在 CASP 的后续版本中,目标和参与者的数量有所增加(图 [3](javascript:;) ),并出现了新的比赛类别。其中包括从 2000 年 (CASP4) 开始的 Web 服务器全自动预测类别。十八年后,AlphaFold ([34](javascript:;))进入CASP13游戏([35](javascript:;))2020年在蛋白质结构预测方面取得突破(CASP14)([36](javascript:;))。RNA-Puzzles 于 2015 年开设了自己的网络服务器类别。2022 年,这项比赛迎来了第一批使用深度学习模型预测 3D RNA 结构的团队。同年,CASP-RNA 启动,这是一项由 CASP 和 RNA-Puzzles 联合举办的比赛([37](javascript:;) ).与此同时,人们对 RNA 三维结构预测的兴趣也激增([38](javascript:;))这得益于 AlphaFold 的成功以及 RNA 病毒引发的新冠肺炎疫情。参与 CASP-RNA 的 42 个团队尝试对 12 个 RNA 序列进行三维结构建模。18 个参与团队在预测的各个阶段使用了深度学习模型(包括 DeepFoldRNA、RhoFold、trRosettaRNA 和 OpenComplex-RNA)([20–22](javascript:;))。CASP-RNA 的最终排名将前 4 名授予了结合专家建模与非机器学习算法的团队。
RNA-Puzzles 和 CASP 竞赛中预测的 RNA 和蛋白质结构数量。实线表示参加 CASP 和 RNA-Puzzles 的团队数量;虚线表示蛋白质/RNA 靶标的数量。从 2010 年到 2021 年,RNA 仅在 RNA-Puzzles 中被预测,而在 2022 年,CASP 还包括 RNA 靶标,这导致最近参与 3D RNA 结构预测的靶标和团队数量激增。
挑战
AlphaFold 和其他高精度方法([34](javascript:;),[39–48](javascript:;))应用深度学习根据序列预测蛋白质结构。训练这些工具需要大量数据。例如,AlphaFold 实施了一种引导技术,其最终版本同时使用了实验确定和预测的高精度结构。一个基本问题是我们是否有足够的 RNA 结构数据进行训练,以及它们是否具有足够高的质量和多样性。
蛋白质数据库中的 RNA 含量
自 20 世纪 70 年代中期第一个 tRNA 结构被解析以来([49](javascript:;) ),大约十年后出版([50](javascript:;),[51](javascript:;))人们知道RNA分子可以采用复杂的三维结构。然而,直到20世纪90年代末,才出现了功能性新型RNA的结构:首先是几种类型的核酶([52–54](javascript:;)),然后是令人印象深刻的核糖体颗粒([55–57](javascript:;))。这些研究揭示了 RNA 结构的结构丰富性,后来通过 X 射线晶体学和最近的低温电子显微镜 (cryo-EM) 解析的更多结构证实了这一点。尽管关于 RNA 结构的所有发现,但 RNA 和蛋白质的大量实验结构数据仍然强烈支持后者(表[1](javascript:;))。蛋白质沉积物的数量大约是 RNA 的 25 倍。DNA 的比例略高,但即便如此,这两种核酸在 PDB 档案中所占比例都不到 10%,而且这一比例随着时间的推移一直保持相当稳定。当仅限于高分辨率数据时,情况更加引人注目:在分辨率优于 2.0 Å 的 X 射线和低温电子显微镜结构中,蛋白质的丰富程度大约是 RNA 的 100 倍(表[1](javascript:;) ). 考虑到分辨率<3.0 Å的所有结构,RNA核苷酸仅占所有残基(核苷酸和氨基酸)的2%([58](javascript:;),[59](javascript:;) )。不幸的是,这些比例不可能迅速改变。新近解决的晶体和低温电子显微镜结构往往具有有限的分辨率。原因是 RNA 分子固有的灵活性,例如,可以通过晶体相中的因子 B 和 R 来估计;对于具有可比分辨率的蛋白质,RNA 的这些值要高。有限数量的高分辨率 RNA 结构是一个严重的限制,因为这些结构是有关 3D 结构的最可靠实验信息的来源,有些人认为它们是唯一的信息来源。
表格1。
数十年来高分辨率(≤2.0 Å)的所有 PDB 发布结构 () 和 X 射线和低温电子显微镜结构 (*) 中的残基数量。第一列中,氨基酸缩写为 AA,核苷酸缩写为 nt
。 | ≤1980年 。 | 1981–1990年 。 | 1991–2000 年 。 | 2001–2010年 。 | 2011–2022 年 。 | 全部的 。 | 占总数的% 。 |
---|---|---|---|---|---|---|---|
蛋白质 (*) | 78 | 634 | 12 121 | 43 205 | 108,677 | 164,715 | 91.57 |
AA ≤2.0 Å (**) | 5050 | 45 236 | 1 609 401 | 11 390 238 | 28 513 777 | 41 563 702 | 99.78 |
核糖核酸 (*) | 2 | 23 | 306 | 1392 | 4488 | 6211 | 3.45 |
RNA nts ≤2.0 Å (**) | 0 | 0 | 1270 | 5974 | 26,921 | 34 165 | 0.08 |
DNA(*) | 1 | 91 | 1061 | 2009 | 5800 | 8962 | 4.98 |
DNA nts ≤2.0 Å | 0 | 238 | 5430 | 15730 | 38107 | 59,505 | 0.14 |
。 | ≤1980年 。 | 1981–1990年 。 | 1991–2000 年 。 | 2001–2010年 。 | 2011–2022 年 。 | 全部的 。 | 占总数的% 。 |
---|---|---|---|---|---|---|---|
蛋白质 (*) | 78 | 634 | 12 121 | 43 205 | 108,677 | 164,715 | 91.57 |
AA ≤2.0 Å (**) | 5050 | 45 236 | 1 609 401 | 11 390 238 | 28 513 777 | 41 563 702 | 99.78 |
核糖核酸 (*) | 2 | 23 | 306 | 1392 | 4488 | 6211 | 3.45 |
RNA nts ≤2.0 Å (**) | 0 | 0 | 1270 | 5974 | 26,921 | 34 165 | 0.08 |
DNA(*) | 1 | 91 | 1061 | 2009 | 5800 | 8962 | 4.98 |
DNA nts ≤2.0 Å | 0 | 238 | 5430 | 15730 | 38107 | 59,505 | 0.14 |
表格1。
数十年来高分辨率(≤2.0 Å)的所有 PDB 发布结构 () 和 X 射线和低温电子显微镜结构 (*) 中的残基数量。第一列中,氨基酸缩写为 AA,核苷酸缩写为 nt
。 | ≤1980年 。 | 1981–1990年 。 | 1991–2000 年 。 | 2001–2010年 。 | 2011–2022 年 。 | 全部的 。 | 占总数的% 。 |
---|---|---|---|---|---|---|---|
蛋白质 (*) | 78 | 634 | 12 121 | 43 205 | 108,677 | 164,715 | 91.57 |
AA ≤2.0 Å (**) | 5050 | 45 236 | 1 609 401 | 11 390 238 | 28 513 777 | 41 563 702 | 99.78 |
核糖核酸 (*) | 2 | 23 | 306 | 1392 | 4488 | 6211 | 3.45 |
RNA nts ≤2.0 Å (**) | 0 | 0 | 1270 | 5974 | 26,921 | 34 165 | 0.08 |
DNA(*) | 1 | 91 | 1061 | 2009 | 5800 | 8962 | 4.98 |
DNA nts ≤2.0 Å | 0 | 238 | 5430 | 15730 | 38107 | 59,505 | 0.14 |
。 | ≤1980年 。 | 1981–1990年 。 | 1991–2000 年 。 | 2001–2010年 。 | 2011–2022 年 。 | 全部的 。 | 占总数的% 。 |
---|---|---|---|---|---|---|---|
蛋白质 (*) | 78 | 634 | 12 121 | 43 205 | 108,677 | 164,715 | 91.57 |
AA ≤2.0 Å (**) | 5050 | 45 236 | 1 609 401 | 11 390 238 | 28 513 777 | 41 563 702 | 99.78 |
核糖核酸 (*) | 2 | 23 | 306 | 1392 | 4488 | 6211 | 3.45 |
RNA nts ≤2.0 Å (**) | 0 | 0 | 1270 | 5974 | 26,921 | 34 165 | 0.08 |
DNA(*) | 1 | 91 | 1061 | 2009 | 5800 | 8962 | 4.98 |
DNA nts ≤2.0 Å | 0 | 238 | 5430 | 15730 | 38107 | 59,505 | 0.14 |
RNA 结构对整体折叠至关重要
RNA 的主要结构元素是 A 型反向平行双螺旋,约占核糖体颗粒中 RNA 的 60%。该元素的结构最容易识别和预测。分子的整体三维排列由这些螺旋区域的组装而成。它由各种类型的 3D 基序协调,例如急转弯、环路、n 向连接、双链体的同轴堆叠以及三重和四重螺旋区域([56](javascript:;),[60](javascript:;))。连接点由至少三个螺旋区域组成,这些螺旋区域的排列方式对整体折叠有显著影响。三向连接点有三种家族,它们的区别在于同轴堆叠模式([60](javascript:;))。对于多重性更高的连接,情况会变得更加复杂([61](javascript:;))。正确预测连接拓扑结构和由此产生的茎方向至关重要,但也带来了重大挑战,因为在 RNA 的实验结构中通常只有单个或没有同源连接([62](javascript:;))。所有上述区域通常形成于 RNA 分子中相距较远的部分之间,并由非沃森-克里克碱基对 (NWC) 稳定。结构关键 NWC 的可靠信息对于正确的 2D/3D 结构预测必不可少。然而,高分辨率 PDB 结构中 NWC 的集合不足以推断其序列和结构特征([63](javascript:;) )。高分辨率(≤2.0 Å)晶体和低温电子显微镜结构中 RNA 核苷酸约有 3.4 万个,而氨基酸约有 4200 万个;占 PDB 中所有残基的 0.1% 以下(表[1](javascript:;))。
3D 模块是另一组至关重要但难以预测的主题([64](javascript:;))(图 [4](javascript:;) )。它们主要由 NWC 定义,形成复杂的相互作用网络。即使在来自不同系统发育组的 RNA 中,这些网络也保持连贯性。3D 模块充当蛋白质-RNA 或 RNA-RNA 相互作用的环、转角和基础。它们的准确建模对于捕捉整体 RNA 折叠至关重要,但由于可用数据量少,这几乎不可能。
预测结构与实验确定结构的比较。显示为锤头状核酶 RNA:通过 2.9 Å 分辨率的 X 射线衍射实验确定的结构(PDB ID 5di4)([65](javascript:;) ) 以浅蓝色显示,模型 PZ15_Adamiak_15 以红色显示。图 ( A ) 中残基 A9-U33 的卡通表示表明预测正确遵循核酶的整体拓扑结构,但存在局部偏差。图 ( B ) 显示残基 G11 和 G18 之间的片段。整体骨架方向预测正确,但局部偏差较大。它们包括碱基方向的差异,随后是碱基配对的差异,并且相应磷原子之间的距离也相当大;目标和模型的腺苷 15 的 Ps 之间的一个这样的距离由绿色杆突出显示。图 B 左侧和右侧的片段显示相同的原子,视图旋转了约 90°。
RNA 结构也通过碱基-核糖氢键、分子内与带电磷酸盐的相互作用以及与金属离子的配位等相互作用来稳定。这些相互作用的作用甚至比非沃森-克里克碱基对的作用更不为人所知。
实验 RNA 数据的质量
高分辨率结构的缺乏不仅使 RNA 的准确注释变得复杂。由于缺乏社区认可的质量标准,存储的 RNA(和 DNA)数据的质量也存在问题。这些问题与碱基配对、价态几何和主链几何有关;它们的组合可能导致大量不精确和不可靠的精细结构。
碱基配对的正式描述对于构建可靠的 3D 模型至关重要。然而,公共档案中的碱基配对描述并不可靠;它通常是不完整或不正确的。用于将碱基对拓扑分配给 3D 结构的程序,例如 MC-Annotate ([66](javascript:;) )、RNAview ([67](javascript:;) )、FR3D ([68](javascript:;) )、ClaRNA ([69](javascript:;))、CompAnnotate([69](javascript:;) )、RNApdbee ([70](javascript:;) )、bpRNA ([71](javascript:;) )、baRNAba ([72](javascript:;) )、BPNET([73](javascript:;) ) 和 DSSR ([74](javascript:;) ),通常提供不完整或相互矛盾的信息(手稿正在准备中)。因此,必须进行全面的基准测试,并使用来自共识算法的拓扑数据对公共档案进行持续更新。
对于大型 RNA 结构的预测来说,可能不太重要但确实重要的一点是用于细化键长和键角的目标不一致。这些价态几何目标在各种细化程序、验证包和 PDB 中有所不同,导致社区混乱。因此,核酸价态几何工作组 ([75](javascript:;))制定社区认可的验证目标([76–78](javascript:;))。
RNA(和 DNA)结构描述中一个重大错误来源是对核酸骨架几何形状的误解。骨架的结构复杂性很早就被人们所理解([79](javascript:;) ),但直到 20 世纪 90 年代末,该主题才开始受到广泛关注。那时,大型 RNA 核酶和核糖体结构开始出现,人们可以根据实验数据分析其结构变异性。结构上可分类的最小单位是二核苷酸,它包含两个核糖,并具有磷酸二酯键 C3'–O3'–P–O5'–C5' 的复杂性。然而,即使是这种相对较小的片段也有 9 个扭转自由度。二核苷酸片段的第一个构象异构体定义于 2000 年初发表,首先是 RNA([80–82](javascript:;)),后来又用于 DNA([83](javascript:;) ) 以及最近针对 RNA 和 DNA 构建的结构字母表 CANA,该字母表由二核苷酸构象类 NtC 构成 ([84](javascript:;) )。构象类别的概念相对较新,在常规细化和验证方案中实施起来也存在技术困难,这可能是构象类别未被广泛使用的原因。我们认为这是新确定的结构质量无法提高的原因之一。
序列和序列比对
使用多序列比对 (MSA) 的信息可能会提高 3D RNA 结构预测的效率。MSA 已被纳入人类类别 RNA-Puzzles 和 CASP-RNA 中的几种基于专家的建模方法中([24](javascript:;) )。这种策略也应用于 AlphaFold 和其他最近的蛋白质预测方法。在这些方法中,相关突变用于检测 3D 空间中紧密接触的残基,尽管序列距离很远。这一原理在 RNA 中早已被理解([63](javascript:;) )。遗憾的是,创建高质量的 RNA 比对非常困难,通常需要专家的手动操作。这种困难导致 RNA 与蛋白质的比对数量大大减少。
为了说明数量上的差异,我们可以比较两个资源,Pfam 和 Rfam。Pfam 和 Rfam 是蛋白质/RNA 比对的集合,模型在基因组中对其进行注释。Rfam 是最古老和最大的 ncRNA 比对来源。虽然还有其他资源收集类似的数据,例如 miRBase([85](javascript:;) ) 或 MirGeneDB ([86](javascript:;) ) 针对 RNA,它们规模较小,并且专注于一种特定类型的分子。Pfam 成立于 1997 年 ([87](javascript:;) ),而 Rfam 在 2003 年 ([88](javascript:;))。Rfam/Pfam 的每个成员都由一个精选的种子比对组成,该种子比对用于构建模型,该模型允许找到更多家族示例并产生所谓的完整比对。Pfam 中的模型基于隐马尔可夫模型,而 Rfam 中的模型是协方差模型,还包括一致的二级结构。在这里,我们将通过比较这些资源来讨论想要使用 RNA 比对的机器学习从业者面临的一些问题。
首先,虽然 Rfam 在精神和目标上与 Pfam 相似,但它包含的数据远少于 Pfam。在撰写本文时,Rfam 的当前版本 14.9 包含 4108 个比对,而 Pfam 的当前版本 35.0 包含 19632 个比对。资源大小的差异是由于历史上对 RNA 基因发现的偏见、识别相关 RNA 之间同源性的难度以及为 Rfam 构建新比对的难度。构建 Rfam 比对需要使用协方差模型,与用于构建 Pfam 比对的隐马尔可夫模型相比,协方差模型的计算成本要高得多。
其次,RNA 比对的平均长度小于蛋白质比对。这种关系与序列数量有关,种子比对在 Rfam 中平均包含 5 个序列,而在 Pfam 中则为 23 个(图 [5A](javascript:;) ),以及列数,Rfam 中有 95 列,而 Pfam 中有 163 列(图 [5B](javascript:;))。保守程度也存在显著差异,Rfam 比对保守 83%,而 Pfam 比对保守 26%(图 [5C](javascript:;))。总之,这意味着与蛋白质相比,RNA 比对很少,现有的比对较小且缺乏变化。因此,很可能还没有足够的 RNA 数据来有效地训练机器学习方法。CASP 中目前表现最好的 RNA 专用方法不是基于机器学习的,这一事实也支持了这一点。
Rfam 与 Pfam 比对基于 ( A ) 序列数量、( B ) 列数量和 ( C ) 每个家族的平均成对百分比同一性进行比较。图上的点表示平均值,垂直条表示标准差。
第三,Rfam 比对有几个全局偏差,使得操作起来很困难。一个是最常见的比对是针对简单分子。考虑到 RNA 的类型,大多数比对涉及 miRNA 前体 (35%),其次是 snoRNA (19%)(图 [6](javascript:;))。miRNA 前体是简单的分子,本质上是带有几个小环和错配的螺旋;在蛋白质中,这最类似于单个 α 螺旋。这种简单的结构并不代表 RNA 折叠的复杂性;例如,它们不包含任何连接,而如上所述,连接拓扑对于确定更复杂的 RNA 的整体结构至关重要。
图 6. 按 Rfam RNA 类型组织的 Rfam 家族计数、种子序列、所有 Rfam 家族的完整序列和结构。
在种子序列或完整序列的数量方面观察到了另一个全局偏差,Rfam 拥有最多的细菌小 RNA (sRNA) 序列数据。然而,在撰写本文时,PDB 中只有很少的这些分子结构少于 50 个。就完整比对而言,tRNA 构成了最大的群体(45%),rRNA 亚基是第三大群体,占另外 8%(图 [6](javascript:;))这些家族是最常解析的结构,分别占所有已知 RNA 三维结构的 26% 和 61%(图 [6](javascript:;) )。尽管收集大量此类序列和结构很有价值,但我们建议谨慎行事。如果训练仅基于核糖体,则不太可能创建推广到其他结构的 ML 模型。几种利用现有数据集进行训练的预测方法尚未产生高质量的模型。
除了 RNA 数据中的全局偏差之外,机器学习中还必须考虑 Rfam 比对的特定问题。例如,并非所有非沃森-克里克碱基对都在 Rfam 中对齐,并且对齐的碱基对尚未以一致的方式处理。此外,Rfam 共识二级结构可以表示展开的部分结构。但是,查看该区域中的 3D 结构(如果有)通常会显示清晰的二级结构。这些区域包括已知具有物种特异性结构的位置,或者由于 Rfam 限制而导致的非结构化形式。Rfam 家族旨在覆盖广泛的系统发育范围。例如,真核生物大亚基核糖体 RNA 家族 (RF02543) 代表所有真核生物中的所有大型 rRNA 亚基。然而,众所周知,rRNA 在王国内甚至在物种内存在很大差异,具有重要的功能后果([89](javascript:;))。由于 Rfam 中的 2D 结构必须代表该家族所有成员的共同点,因此它们在许多区域通常会被折叠。在构建有用的 ML 训练集时应处理这个问题。最后,伪结(3D RNA 结构中的一个关键因素)已被证明有助于组织整体结构,但在 Rfam 比对中并未得到一致注释。不幸的是,目前的 2D 和 3D 预测方法很难预测它们。Rfam 正在努力注释更多观察到的伪结,但许多家族缺乏它们。
综上所述,RNA 比对数据集存在一些问题,这些问题将给深度学习带来问题。与蛋白质相比,该数据集规模较小,在多个方面存在严重偏差,现有的比对也存在一些缺陷。虽然正在努力解决所有这些问题,但使用这些数据成功预测 3D 结构仍具有挑战性。一个关键问题是创建一个测试/训练数据集,该数据集应能代表观察到的复杂性,同时又不会出现过度偏差。
结论
鉴于蛋白质折叠预测的历史,我们能否预测 RNA 领域何时会出现类似的结果?AlphaFold 的成功是在首次基于计算机的蛋白质结构预测工作问世 50 年后取得的。这段时间是积累足够数量的高质量、可靠的蛋白质序列和结构数据所必需的。与此同时,信息和计算机技术得到了发展,使人工智能模型能够有效地应用于解决传统计算方法无法处理的问题。人工神经网络作为一种想法已经有 80 年的历史了([90](javascript:;)),但直到 21 世纪的第二个十年,它们才得到广泛应用。2012 年,深度学习的威力得到了证明([91](javascript:;),[92](javascript:;))。它引发了大量将深度学习模型应用于生活各个领域的项目。除此之外,这股浪潮还带来了专门用于分子结构的新预测方法。所有这些方法都需要大量数据;AlphaFold 已经对超过 170,000 种蛋白质的结构进行了训练,并结合了非常大的序列比对。我们预计也有类似的要求,才能成功地将神经网络用于 RNA 3D 结构预测。
估计何时创建 RNA 的 AlphaFold 的一个简单方法是考虑 RNA 结构或序列比对的数量何时与当前可用的蛋白质数据相当。如上所述,Pfam 包含 19 632 个蛋白质序列比对。从历史上看,由于需要手动构建每个比对,Rfam 的增长呈线性增长,我们观察到 Rfam 平均每年增加约 205 个比对。因此,我们估计 Rfam 将在大约 70 年内包含 19 000 个比对。这无疑是一个巨大的高估,因为我们预计 RNA 3D 结构预测问题到那时将得到解决。一种可能有帮助的技术是自动家族构建。虽然这对于 RNA 仍未解决,但最近在这个问题上的研究可能有希望([93](javascript:;))。自动构建的家族用于训练 AlphaFold,并且可能对 RNA 也有用([34](javascript:;))。
我们相信,在不久的将来,有几种可行的方法可以实现 3D RNA 结构的预测。首先,RNA 社区可以通过更多数据来提高对 RNA 结构的认识;其次,我们可以使预测中使用的数据多样化;最后,我们可以改进所使用的机器学习方法。
缺少哪些数据可以改善预测?我们似乎对 RNA 基序了解得不够,无法预测其整体结构。我们至少可以为小结构基序提供有根据的猜测,其中最重要的是碱基对拓扑结构。关于后者,它们很可能存在于已知结构中,具有相当高的分辨率,可以提供可靠的几何形状。也有强有力的理由相信 CANA 字母表描述了 90% 以上的现有二核苷酸构象异构体;只有少数可能缺失([84](javascript:;) )。我们认为,需要对碱基对以外的分子内相互作用进行更多研究,即 O2' 基团与碱基、核糖、磷酸盐的氢键桥以及磷酸氧(大部分带电)与其他 RNA 成分之间的相互作用。需要对 3D 结构的质量进行基准测试,并制定简化且一致的验证原则,以确保数据存储库的可靠性。
另一种方法是改进 RNA 多序列比对的大小和范围。四字母 RNA 序列的比对比 20 个字母的蛋白质序列更具挑战性。某些 RNA 类别(例如核糖体)具有大量序列,我们知道如何对它们进行比对。然而,需要更多未充分代表的 RNA 类别的比对良好的序列。也许生命之树项目([94](javascript:;),[95](javascript:;))将提供足够多的序列。目前,RNA 基因预测在已知基因组中不一致,因此我们鼓励社区注释新测序基因组中的 ncRNA 基因。生命之树项目中注释的 ncRNA 可能表现出较低的序列多样性,我们建议使用宏基因组中的 ncRNA 基因注释作为解决方案。我们注意到 AlphaFold 需要宏基因组序列才能达到其最大性能,我们怀疑 RNA 也会显示出类似的趋势。解决这些挑战涉及找到所有 ncRNA 基因并使数据可重复使用。
在所有基因组中一致地注释 RNA 家族将很有用,并可能增加可用 RNA 序列的多样性;然而,似乎预测方法将受益于更广泛的 RNA 家族。如上所述,许多 Rfam 家族在结构上相似。我们认为提供更多样化的训练集会很有用。虽然 Rfam 是 RNA 家族的全球存储库,但并非所有已知家族都可以在那里找到。纠正这个问题并努力创建与现有家族不同的新家族应该是 RNA 社区的重点。此外,创建高质量的比对仍然是一个挑战([96](javascript:;))。
如果目前可用的序列和结构数据的数量和增长率不够,是否可以用其他数据来源来补充?我们认为可以。特别是,RNA生物化学有着丰富的历史,并开发了许多快速探测3D结构的方法([97](javascript:;),[98](javascript:;))。这些数据的一个子集,SHAPE 探测,已被证明对经典预测方法有用,我们希望它对基于 DL 的方法也有帮助。尽管许多实验室都在探测 RNA 的结构,但这些数据并不容易被 ML 从业者获得。作为一个社区来标准化、收集和分发这些数据似乎对预测很有价值。此外,还有其他低分辨率方法,如 SAXS 和 AFM,它们可能在建模结构方面有用([97](javascript:;))。
最后,机器学习方法的快速发展和难以预测可能会改变我们对准确预测 3D RNA 结构能力的悲观预测。开发对数据需求较少的方法(例如迁移学习)可能会更快地实现成功预测。我们认为,对于在数据有限的情况下对机器学习感兴趣的研究人员来说,RNA 结构预测是一个很好的测试案例。