在过去的几十年中,我们逐渐意识到调节染色质结构的过程的复杂性。从染色质可及性到远距离基因组组织,细胞使用了多种机制来控制基因表达。我们最近开始了解非编码RNA(ncRNA)在此类过程中的原始作用,现在已知几种类型的RNA对调节基因表达至关重要:在细胞核中,长非编码RNAs(lncRNAs)、增强子RNAs(eRNAs)、稳定的内含子序列RNAs(sisRNAs)和其他各种类型转录物在一起确保染色质的严格调控。LncRNAs是指含有200多个核苷酸的转录本,不含任何明显的开放阅读框。虽然一些lncRNAs在细胞质中定位并具有活性,但仍有许多lncRNAs是核定位并参与转录调控的。这些核lncRNAs可以通过与DNA或染色质相关蛋白的相互作用来调节基因的表达。eRNAs是从增强子区域产生的大量转录本RNA,可能通过与中介复合物,转录因子或染色体环化因子的相互作用来调节增强子的活性。sisRNAs代表含有内含子序列的RNA,越来越多的证据表明它们中的一些对染色质的调节起作用。所有这些与染色质相关的RNA的所有类别对于调节基因表达都是必不可少的。一些转录本似乎是以“顺式作用”影响其自身染色体内基因的表达,而另一些则以“反式”控制其他染色体上的转录过程。已经发现,一些顺式作用的RNA通过与其基因座的互补序列形成R-loops而发挥功能,并影响局部基因表达,就像GATA3-AS1和VIM-AS1一样。无论是顺式还是反式作用的RNA,都可以通过直接的RNA-DNA接触(即RNA-DNA三链体)影响基因表达,比如MEG3和KHPS1;或通过蛋白质中间体间接作用,如FIRRElncRNA与SAF-A蛋白的相互作用。这些相互作用通常需要特定的RNA“结构域”,例如被染色质结合蛋白识别的基序或形成RNA-DNA三链体的基序。还已经发现了在顺式和反式中均表现出相互作用的RNA ,例如:lncRNAsFIRRE和ANRIL。这暗示了由染色质相关RNAs所调控过程的高度复杂性。
我们假设作用于染色质的RNA可以在功能上分为两组,这取决于它们如何影响细胞的转录环境。第一组,RNAs可以局部作用于它们本身在染色质结构上结合(即短距离)的位置,例如,通过募集建立染色质标记的结构蛋白因子或蛋白质复合物来修改其可及性,将其定义为TypeI RNAs。已经正式的Type I RNAs,如lncRNAHOTAIR和FENDERR以及从SMYD3内含子序列产生的sisRNA ,部分是通过招募PRC2到它们的基因组结合位点来实现的。第二组,RNAs可以控制基因组的组织,通过促进长距离的染色质相互作用和较远基因组位点的桥接来实现控制,我们将其定义为Type Ⅱ RNAs。Type Ⅱ RNAs包括诸如lncRNALUNAR1或Kancr之类的例子,它们都参与染色体环化和环锚定点附近基因的激活。此外,一些lncRNAs可能潜在地表现出两种类型的相互作用,例如,lncRNAXIST从X染色体转录而来,并直接与其失活(XCI)有关;在此过程中,XIST转录本募集XCI所需的蛋白质因子,表现出Type I型机制。在XCI上,X染色体发生渐进性压缩,并使XIST扩散到整个X染色体上,这导致整体异染色质化;此外,使XIST能够附着到X染色体结合蛋白质和XIST依赖的X染色体构象的多结构域暗示了XCI中该lncRNA的潜在Type Ⅱ型机制。
虽然越来越多的RNAs作用于基因表达的现象已被阐释,但对于这些相互作用的普遍程度以及所涉及机制的重要性,我们仍然知之甚少。确定哪些RNAs对染色质调节起作用的第一个主要障碍在于大量现存转录本。例如,我们可以估计可能具有功能的lncRNAs的数量是数万,而对功能性eRNAs或sisRNAs的表征仍为时过早,还无法给出准确的估计值。要全面了解上述过程,还有大量工作要做。因此,了解RNAs在何处以及如何与染色质相互作用,以及由此产生的对基因调控的影响,仍然是表征全基因组转录环境的一个重要挑战。
全基因组RNA-染色质互作图谱
在过去的20年中,旨在绘制长距离染色质相互作用和破译基因组结构的技术得到较快发展。现行有效的技术包括直接连接近端DNA片段(3C),条形码与相互作用的DNA片段的连接(SPRITE)或薄核切片的物理分离及所含DNA的分析(GAM)。基于3C的方法学启发了解决RNA-DNA互作的新思路,例如MARGI、GRID-seq、CHAR-seq、iMARGI和RADICL-seq等。此外,SPRITE也适用于揭示RNA-DNA的互作。MARGI已经能够鉴定涉及建立各种染色质标记的RNA-染色质互作的Type I型机制。GRID-seq显示丰富的RNA-染色质互作与超级增强子的作用有关,代表了潜在的Types I和II型RNA-染色质相互作用。GRID-seq也被用于检测XIST基因组结合位点的多样性,不仅位于其转录位点也位于整个X染色体上;它还揭示了通过XIST启动XCI的起始位点。这些发现表明,这些高通量技术在表征RNA紧密控制染色质的不同机制中具有重要意义。
当前检测RNA-染色质互作的方法的局限性
但是,已开发的技术仍存在局限性,要完全了解RNAs如何调节染色质,依然存在许多挑战。首先,已开发的技术通常对定位于内含子的RNAs有较高读取率,揭示了从转录位点(活性转录的RNAs)中广泛捕获的新生RNAs。在其转录过程中,RNAs会因固定在其基因组位点上被捕获。这些高度丰富的互作代表了此类实验的主要“污染物”,这可能掩盖了实际的功能互作。在实际应用中,应该考虑到它们的存在,以防止它们影响功能互作的测序深度,并允许检测低丰度的RNA-染色质互作。为了减少新生RNAs偏倚的影响,RADICL-seq使用了控制性的RNase H消化步骤;尽管此步骤确实可以减少这种偏见,但仍保留了很大一部分新生RNAs,因此有必要探索去除这些“有害”RNAs的其他方法。
当前技术方案和可用数据集的另一个主要限制在于与DNA及其相互作用的RNAs相对应的测序标签相对较小。实际上,它们的短尺寸导致对基因组和转录组中获得的DNA-RNA配对的不良定位。当处理包含重复序列的转录本时,这个问题会进一步放大。例如,lncRNAs通常具有大量的转座子(TEs)和其他重复序列,83%的lncRNAs包含一个或多个TE。有趣的是,一些TEs与RNA转录本在细胞核中的定位有关,这进一步突出了其基因组调控作用。这些TEs也已成为lncRNAs功能中的重要结构域,已经有人提出嵌入式TEs可以充当RNAs的功能基序。因此,由于无法映射重复元件而导致的与重复元件相对应的损失代表了当前技术方案中的主要潜在障碍。这一点在诸如GRID-seq或RADICL-seq等方案的唯一mapped reads的相对较低百分比(分别为14%和45%)中显而易见。与GRID-seq相比,RADICL-seq观察到的更高的read mapping是由于最终read长度中增加了7个碱基对。这些方案使用限制性酶为GRID-seq和RADICL-seq中RNA和DNA标签分别生成约20和27个碱基对的序列。RADICL-seq中增加的读长,允许mapping一些包含TE的RNAs。这能够确定含有TEs的转录本确实与染色质的互作存在差异,再次暗示了TEs在染色质调节中的重要性。其他方法(即MARGI和iMARGI)通过保留各自RNA和DNA标签的全长来规避这一不足,这样就可以生成包含较长片段的库,产生更好的reads mapping。
迄今为止,这些技术依赖于“短读长”测序技术,该技术无法完全克服在RNAs内mapping重复和复杂序列的挑战。要解决此问题,一种选择是将“长读长”测序技术整合到这些技术中。实际上,在过去的十年中,此类测序技术的可用性不断提高,意味着越来越多的实验室可以使用该技术。与“短读长”测序方法相比,“长读长”仍处于早期发展阶段,对长DNA或RNA片段(从几百个核苷酸到数十万个碱基)的测序可以使重复序列更准确地比对。此外,“长读长”测序可以提供RNAs与染色质互作的更多详细信息。首先,可以检测到与染色质互作的RNAs的特定亚型;此外,检测新生RNAs将更加精确,因为目前的分析在对新生RNAs进行counting时只考虑内含子reads,而长读长测序会反映出整个转录本。因此,“长读长”测序是一个非常有前途的新工具,可以进一步迭代此类技术方案。
RNA-RNA互作有助于理解LncRNA-染色质互作
虽然现在很清楚,与染色质相关的RNAs影响着染色质的结构和调控,但在这种情况下,对RNA-RNA互作(RRI)的功能还没有得到很好的研究。由于RNAs固有的碱基配对和形成复杂高阶结构的能力,它可以同时与DNA和多个RNA、蛋白质分子相互作用。RNA间相互作用可以通过两个染色质相关RNAs之间的碱基配对来实现Type Ⅱ型相互作用。同时,通过RNAs的二级结构,RNA内相互作用可能有助于鉴定结合染色质或RNA结合蛋白的位点。考虑到这些特征,通过RNA-染色质互作检测技术所揭示的关联将成为整合RRI网络的起点。最近有各种技术方案旨在在转录组层次上研究RRIs,如PARIS、LIGR-seq、SPLASH和MARIO。此外,COMRADES(最初用于探测单个RNA的RRIs)也可用于全基因组RRIs。这些技术通过交联RNA双链体,以揭示RRIs和某种程度上每个RNA的二级结构。这些技术已被证明有助于揭示依赖RRIs的几种细胞进程,如PARIS发现XIST A重复序列中的结构折叠的特征,这对其与SPEN(一种参与X失活的转录阻遏物)的结合是必不可少的;通过GRID-seq分析RRIs结合XIST在染色质上的RNA定位,发现了XIST在XCI中的潜在Type I和II型机制。这些例子说明了如何将RRI数据与从3C或其他相关技术提取的基因组组织的整合map结合起来,再加上现有的RNA-染色质互作信息,将提供对染色质调控背后复杂机制的更好理解。长程、间接的染色质相互作用是由几个双链RNAs或RNA结合蛋白质复合物介导的。总的来说,这些类型的研究为基因组组织和染色质结构的复杂性提供了一个更完整的视角。
结束语
综上所述,此处所介绍的技术方案代表了阐明基因表达调控中RNA-DNA和RNA-RNA互作的有用工具。尽管这些工具仍需进行各种改进,但现有的数据集已经表明了RNA互作如何组织基因组。现在已经通过这些全基因组技术或通过特定的RNA介导技术对几种RNA-DNA互作进行了分类。在这些类别中,lncRNAs似乎是调节基因表达、染色质可及性和基因组组织的重要因子。此外,这些RNAs不仅限于与染色质结合,而且还可以充当引入其他类型的相互作用物的通道,例如其他RNAs、RNA结合蛋白和转录复合物。所有这些因素结合在一起有助于形成和维持在特定细胞状态之间转换所必需的转录景观。
原始文献:Khelifi G, Hussein SMI. A New View of GenomeOrganization Through RNA Directed Interactions.Front Cell Dev Biol.2020;8:517. Published 2020 Jul 14. doi:10.3389/fcell.2020.00517