在过去的50年中,从广义上讲,已经了解了控制基因表达的三个基本基因组元件:启动子(promoters),增强子(enhancers)和边界元件(boundary elements)。启动子通常位于基因的转录起始位点(TSS)附近。增强子和边界元件可能位于基因之内,但更常见的是分布在非编码DNA两侧的各种距离(1-1,000 kb)处。基因及其调控元件只占据人类基因组的约5-15%,目前仍不清楚其他非编码序列的作用。而将整个二倍体人类基因组~6.5 Gb DNA(相当于2 m DNA)压缩并折叠到每个细胞核中,则是通过将DNA整合为染色质,形成连续的高级结构以及最终形成染色体来实现。
在哺乳动物中,核心启动子定义为足以准确启动基础基因表达的连续DNA序列的最小区域。它包括TSS,并且可以在TSS的上游和/或下游延伸约35-40 bp。DNA的这一小片段是招募预起始复合物(pre-initiation complex)的平台。启动子通常在两个方向上转录,尽管通常只在一个方向上转录才能转录相关基因;在相反方向上移动产生的转录本通常较短且不稳定。与核心启动子相关的序列motifs及结合位点十分多样,鉴定出的第一个核心启动子序列是TATA box,之后发现了其他频繁重复的核心启动子序列,包括initiator element(Inr)、下游启动子元件、下游核心元件以及上游和下游TFⅡB识别元件等等。最常见的核心启动子元件是位于CpG岛内简单的富含GC的DNA区域。各个核心启动子中不同序列的组合可能募集不同的预启动复合体及其相关因子,其中一些在特定细胞类型和发育阶段表达。启动子的异质性可以结合普遍存在的和/或组织特异性的转录因子,以调节不同细胞环境中启动子的活性和强度。
单个增强子是DNA的短区域,可激活它们所调控基因的转录,而与它们相对于目标启动子的位置,距离或方向无关。一些增强子在其靶基因之内或附近,还有些增强子位于基因较远的上游或下游区域(1-1,000 kb)。增强子通常包含针对组织特异性和发育阶段特异性转录因子的多个结合位点,因此普遍认为增强子是整合整个分化和发育过程中发生的信号传导和转录程序,并将该信息传达给控制基因的启动子。结合的转录因子可以募集共激活蛋白,它们在转录周期的各个阶段起作用以调节基因表达。就像启动子一样,增强子也募集RNA Pol II,并双向转录,产生小的,不稳定的增强子RNA,这些RNA会被迅速降解。增强子在哺乳动物基因组中远远超过蛋白质编码基因,因此推测许多基因受一种以上的增强子控制。在多个组织和/或发育阶段具有特定表达模式的基因通常受几种不同的增强子调控,这些增强子对各个组织或发育阶段特异性表达的转录因子做出调控。
当启动子和增强子都具有活性时,它们都是小的无核小体的DNA元件,它们募集了大型蛋白质复合物,比如转录因子、介导复合物和起始前复合物,并且都被双向转录。另外,有活性的增强子和启动子由相似的染色质修饰标记。主要区别在于增强子可以在很长的距离内起作用,并倾向于募集组织特异性因子;而启动子通常位于TSS的直接上游,并且更经常募集无处不在的表达因子。此外,从启动子的转录往往是与RNA Pol II的特异性磷酸化相关的有效单向延伸,以及在组蛋白H3 Lys4与Lys36的较高三甲基化水平(H3K4me3/H3K36me3)。相比之下,增强子引起相对较低的转录水平,产生快速降解的增强子RNA,通常以染色质甲基化水平较低为特征,主要是组蛋白H3在Lys4处单甲基化(H3K4me1)。已经表明,某些元件既可以充当一个基因的启动子,又可以充当另一个基因的远端增强子。
在哺乳动物中,边界元件经常与锌指CCCTC结合因子(CTCF)结合,通常与粘着蛋白cohesin联系在一起。随着第一批哺乳动物基因组三维结构高分辨率全基因组图谱的生成,很明显,染色质结构域的边界强烈地富集CTCF的结合位点,这些位点大多以收敛方向排列。因此,“边界元件”一词现在通常指的是在染色质域的边界划分中起结构作用的元素。在哺乳动物体内,基因组中只有一组正确定位的CTCF结合位点作为结构边界。此外,结构性染色质域的边界也富集有活跃转录基因的启动子,这表明启动子也可能具有边界功能。
将上述三者密切联系在一起的是环挤压模型,加之结合在调控元件上的蛋白质之间的亲和力,从而形成特定的增强子-启动子互作。当cohesin复合物沿着染色质纤维移位并挤出一个环时,它将调控元件带得很近。当cohesin复合物接近位于边界元件的CTCF氨基末端时,cohesin复合物就停止了。在这些区域内,形成了包含多个增强子和启动子相互作用的高阶枢纽结构。这些结构很可能是环挤压和增强子/启动子结合因子之间的蛋白质-蛋白质相互作用的结果,尽管这两个过程的确切作用仍不是特别清楚。
目前已经清楚的是,染色质以动态状态存在,并且染色质高级结构随局部基因活性和表观遗传修饰而不同。然而,一个重要的、尚未解决的问题是基因组的高级结构与基因表达调控之间的关系。染色质结构是独立编码的吗?它们在调节或促进基因表达中起指导作用,还是这些结构是一种新的基因组调控元件?如果前者是正确的,我们需要发现控制细胞核结构形成的独立规则;如果后者是正确的,我们则需要研究染色质结构所产生的调控元件,以增进我们对遗传密码在3D核中如何解密和发挥作用的理解。为了探讨这个问题,我们概述在哺乳动物基因组中关于基本调控元件组织原理的一些发现:
单个染色体被组织在离散的染色体区域中。
拓扑关联域(topologically associating domains, TADs)通常在发育的早期就建立,并且在细胞类型之间相对不变。
干扰TADs结构会导致基因表达的改变。
增强子和启动子之间的物理接近可以导致基因激活。
在基因表达激活之前,似乎已经建立起一些增强子-启动子的相互作用。
一些非膜结合核区室(non-membrane-bound nuclear compartments)可以是预先形成的固定实体。
在表型正常的个体中,染色体易位相对普遍。
涉及整个TADs的重排不会引起基因表达的变化或只有很小的变化。
细胞核区室和subTADs在不同细胞类型之间和不同细胞中有所不同。
TADs结构的变化和基因表达的相关变化是由功能性边界元件扰动所引起的。
粘连蛋白(cohesin)和CCCTC结合因子(CTCF)的耗竭会导致染色质结构发生根本性变化,但基因表达的变化相对较小。
在基因组的天然组成中,调控元件之间的物理接近程度取决于结合在这些元件上的factors。
某些增强子-启动子的相互作用与基因表达的上调同时发生。
许多非膜结合核区室是动态的瞬时性结构。
可以基于染色质修饰、转录因子(TF)的结合和基因表达来预测TADs。
这些观察结果强有力地表明:高级染色质结构是由基因组的调控元件所编码的,并可以作为调控元件活性的表现形式。对于基因组结构和功能之间的关系,提出了以下模型(见图):
基因组调控元件的活性与细胞核中的TF程序及表观遗传程序有关。这些调控元件的序列、排列和活性共同指导了高级染色质结构形成的基础过程。结合CTCF的边界元件划定了黏着蛋白所介导的环挤压的边界,从而控制了TAD边界的位置。活跃的基因启动子可能以相似的方式起作用。在TAD中,环挤出的过程使增强子和启动子在物理距离上非常接近,这可能会促进特定的增强子-启动子互作,并通过其上所结合的TFs及辅因子之间的亲和力实现更稳定的互作。根据它们的染色质状态,常染色质和异染色质区域通过相分离过程形成空间分隔的区室。
在未来的工作中,更详细地研究细胞核区室化、环挤压、增强子-启动子相互作用和转录发生是如何在单个细胞中实时动态发生的将是重要的。我们期待将超分辨率成像技术与单细胞测序技术相结合,将有助于解决这些问题,并有助于更好地理解基因调控、基因组组织结构及其相互关系。
参考文献:Oudelaar, A.M., Higgs, D.R. The relationship between genome structure and function. Nat Rev Genet (2020). https://doi.org/10.1038/s41576-020-00303-x