Nat Rev Genet | 20 年来表观遗传领域核心进展之全景解读
原创: ppxu [Epigenetics表观遗传学] 今天
在过去的 20 多年中,表观遗传学从点到线,从线到面,到如今的全面蓬勃发展,并被认为是最具潜力获得诺贝尔奖的领域之一。2016 年,表观遗传学领域的权威 C. David Allis 和 Thomas Jenuwein 于 Nature Review Genetics发表了题为 *The molecular hallmarks of epigenetic control *的 Perspectives 文章,系统性回顾了过去 20 年来表观遗传学领域的突破性进展,为理解表观遗传学提供了全景式的解读。文章自 2016 年 8 月发表以来,至今已被引用 489 次(Google scholar 数据)。为了帮助对表观遗传感兴趣的小伙伴深入理解表观遗传学,我们特整理了全文的要点,供大家参考。
全文共分为六个部分,导语部分简要介绍了全文的基本内容,第二部分《表观遗传学的基础》简要介绍了 DNA 甲基化、核小体和组蛋白修饰的基本概念,这些正是构成表观遗传学的物质基础;第三部分《染色质状态的酶学定义》阐明了染色质的两种状态——常染色质和异染色质,以及它们与基因活性之间的关联;第四部分《表观遗传研究的现代时期》中,作者将 1996~2016 年这 20 年间表观遗传的研究定义为“表观遗传研究的现代时期(the modern era of epigenetic research)”,并从组蛋白密码假说及相关理论、组蛋白修饰和 DNA 甲基化、非编码 RNA 和基因转录沉默、核小体重塑和组蛋白变体、所有染色质标记都是可逆的、二价染色质(bivalent chromatin)和表观基因组特征等六个方面进行阐述;第五部分《发育与疾病》介绍了表观遗传与疾病之间的关联,并从重编程的表观遗传障碍、癌症和表观遗传治疗、免疫防御、染色质遗传(记忆)等四个方面展开,其中还涉及多种表观遗传药物的开发策略;最后展望部分对全文进行了简要总结,并展望了表观遗传学今后的发展。
全文超过 14400 字,可收藏阅读,或直接跳转至感兴趣的部分。
摘要:过去 20 年(1996~2016 年)中,科学家们鉴定了多种染色质修饰酶,探索了各种刺激(生理和病理)信号引起染色质改变的分子机制,并取得了一系列突破性进展,这使得我们对于表观遗传学的认知,从一系列不寻常的生物学现象上升为“一个具有细分功能的研究领域”。本文介绍了表观遗传学的发展历程——从其历史起源到当下的“表观遗传研究的现代时期(the modern era of epigenetic research)”。文中重点强调了表观遗传调控中的关键分子机制和概念进展,这些进展改变了我们对正常与受扰情况下生物发育的理解。
1. 导语
1942 年,Conrad Waddington 创造出了“表观遗传学”一词,用以定义基因型未发生改变而表型改变的现象,以解释发育的各个方面。大约 3/4 个世纪以后,我们发现基因表达模式传递的表观遗传机制并不依赖于 DNA 序列的改变,而是通过改变染色质的状态,而染色质状态同时是我们遗传信息的生理学形式。除了 DNA,表观遗传机制同样能够稳定基因表达程序从而确定细胞的类型。人们早已认识到表观遗传调控的重要性,但是对于何种染色质状态激活基因表达,何种染色质状态抑制基因表达(编者注:染色质状态像酶一样可调控基因表达,即染色质状态具有酶活性),所知依然甚少。
染色质免疫共沉淀测序(ChIP-seq)及其衍生技术使得人们能够在碱基分辨率或者接近碱基分辨率水平上分析表观基因组,同时也可以在正常或非正常的细胞或组织中构建表观基因组图谱。在一些情况下,表观基因组图谱能够更好地定义基因增强子和启动子等基因关键调控元件;其与 DNA 序列整合分析时,可深入探究疾病进程的分子机制。绝大多数已知的表观遗传修饰都是可逆的,如果对表观遗传调控的这种适应性特性加以借鉴,那么从表观遗传角度开发新的治疗策略将大有希望。表观遗传学已然并将继续成为现代生物学和医学最具创新性的研究领域之一。
在文中,作者回顾了表观遗传学从其起源至“表观遗传研究的现代时期(the modern era of epigenetic research)”的发展历程,作者将“表观遗传研究的现代”定义为 1996 至 2016 这二十年间的表观遗传学研究。本文介绍了关于染色质状态酶活性定义的开创性发现,这种染色质状态包括基因处于活性状态的常染色质(euchromatin)和基因处于抑制状态的异染色质(heterochromatin);此外,还介绍了表观遗传学在染色质稳定性、基因调控、转录沉默以及组蛋白修饰和 DNA 甲基化的可逆性等方面的机制进展。这些机制上的见解反过来加深了我们对于细胞身份的理解,同时也为重编程、染色质对环境的响应、表观遗传治疗以及染色质遗传等方面的研究开辟了新的途径,作者对这些方面的进展也进行了概述。此外,作者描述了许多突破性的发现,重点描述了一些重要的机制和概念上的进展。文中引用了许多具有深远影响的文章,但读者有时也可参考《表观遗传学》教科书(Epigenetics, 2nd edition, CSHL Press)或者其他近期的综述以获取更为深入的讨论和更多的参考内容。
2. 表观遗传学的基础
Miescher、Flemming、Kossel 和 Heitz 在 1869 年到 1928 年间开展的开拓性工作定义了核酸、染色质和组蛋白,这也使得常染色质和异染色质在细胞学上产生了区别(图1)。之后,Muller(在黑腹果蝇中)和 McClintock(在玉米中)在位置效应花斑(position-effect variegation,PEV)和转座元件上的开创性研究,为非孟德尔遗传(non-Mendelian inheritance)提供了早期的线索。进一步地,对X染色体失活以及基因组印记现象的描述催生了这样一个基本概念的产生,即在同一细胞核中,相同的遗传物质可以保持不同的“开”或“关”的状态,但其背后的机制所知甚少。
图 1. 细胞学上可见的活性染色质(常染色质)和抑制性染色质(异染色质)状态。图中显示了两个来源于雄鼠体细胞的处于细胞间期的细胞核,左边的细胞核中的 DNA 呈现出广阔的非致密的染色,而右边的细胞核呈现出具有典型的异染色质核(黑色的点),而且通过 DAPI 染色,AT 富集的重复序列可见。此外,在核周围的致密染色的 Barr 体(一个失活的 X 染色体)被单独标注出来。
2.1 DNA 甲基化
早在 1948 年,DNA 碱基的化学修饰就已被检测到(编者注:这早于1953年DNA双螺旋结构的发现);在 20 世纪 70 年代中期,Holiday 和 Pugh 就提出了 DNA 甲基化(特别是 5-甲基胞嘧啶)在基因调控中的作用。到了 1980 年,DNA 甲基化和基因抑制的联系被建立,同一时期也发现了 CpG 岛。5-氮杂胞苷(也称为 2'-脱氧-5-氮杂胞苷,后称为地西他滨)是第一种“表观遗传药物”,它能够阻断 DNA 甲基化,用于改变成纤维细胞系的基因表达和表型。此后不久, Feinberg 和 Vogelstein 报道了癌症中全基因组 DNA 低甲基化;十年后,肿瘤抑制基因的局部 DNA 高甲基化也被报道出来。这些发现为 DNA 甲基化的“酶学”理论(enzymology of DNA methylation)提供了令人信服的证据。小鼠 DNA 甲基化转移酶1(DNMT1)的成功纯化与克隆,以及 *Dnmt1 *突变小鼠的构建和分析向着这一理论迈出了重大一步。同一时期,第一个 DNA 甲基结合蛋白 MeCP2 被鉴定出来。时至今日,DNA 甲基化和 5-甲基胞嘧啶(被认为是“第五个碱基”)已经被确立为许多生物体内关键的表观遗传学机制。
2.2 核小体
许多研究组的工作共同构建了核小体组织模型。1974 年染色质亚单元模型(chromatin subunit model)首次被清楚阐明,1997 年通过组蛋白八聚体-DNA 颗粒的 X 射线晶体结构,该模型首次被观测到。正如当时观测到的,染色质纤维的基本单位为核小体核心颗粒,它是由四个组蛋白的各两个拷贝(组蛋白八聚体)组成的,并包裹了 147bp 的 DNA。
2.3 组蛋白修饰
在 20 世纪 60 年代中期,Allfrey 在组蛋白修饰(尤其是组蛋白乙酰化)方面的开创性工作引出了一种假设:乙酰化与基因活性密切相关。随后科学家们进行了许多研究,Grunstein 等研究了酿酒酵母中组蛋白尾部的突变,发现这些突变扰乱了端粒和交配型基因座(mating-type loci)中基因的沉默。这项开创性的工作提供了功能方面的早期证据,其中就包括沉默信息调节蛋白(silent information regulator proteins)的首次表征。由 Turner 等人开发的针对特定修饰或位点的抗体(如组蛋白 H4 第 16 位赖氨酸的乙酰化,H4K16ac)揭示了组蛋白乙酰化的非随机模式,例如雌性哺乳动物中失活的 X 染色体和酵母中沉默的交配型基因的低乙酰化,以及黑腹雄性果蝇中上调两倍的 X 染色体基因或鸡红细胞中表达的 β-珠蛋白基因的高度乙酰化。
从这些重大发现可以提出一个令人信服的论点:除了 DNA 甲基化外,组蛋白修饰还携带了能够区分常染色质和异染色质的信息。果蝇、酵母和植物中强大的遗传筛选体系已经鉴定了染色质依赖性的基因调控的其他关键因素,如 HP1、Su(var)3-9、Enhancer of zeste (E(z))、Polycomb、Trithorax、Clr4 和 DDM1 等。 然而,这些染色质因子的分子功能以及染色质是如何在常染色和异染色状态之间“转换”的还并不清楚。
3. 染色质状态的酶学定义
3.1 基因活性和常染色质
1996 年,Allis 及其同事使用纤毛原生动物模型——嗜热四膜虫,将生物化学方法与凝胶内实验(in-gel assay)相结合,从该生物体内具有活性的细胞核中纯化和克隆出第一个编码与转录相关的组蛋白乙酰基转移酶(histone acetyltransferase,HAT)基因。引人注目的是,纤毛虫中这种 HAT(p55)与此前描述的来自芽殖酵母的转录共激活因子 Gcn5 是直系同源物,这一发现为组蛋白乙酰化和基因活性之间提供了直接的联系,而且酵母 Gcn5 酶也显示出 HAT 活性。有趣的是, 纤毛虫的酶包含了在其他乙酰基转移酶(如酵母的 Hat1)中发现的活性位点残基以及高度保守的溴结构域(bromodomain),这提示它可能指导染色质招募,但机制至今尚不清楚。在随后的研究中 Allis 团队提供了通过 Gcn5 靶向组蛋白乙酰化导致基因激活的确凿证据。一些其他的 HAT,包括 TAF1(也称为 TAF(II)250)、PCAF 和 CBP / p300 也被鉴定出来,从而证实这一调控范式,并进一步将这一范式扩展到哺乳动物细胞中。
在 p55-Gcn5 结果发表后大约一个月,Schreiber 及其同事利用 HDAC 抑制剂 trapoxin,纯化和克隆了第一个组蛋白去乙酰化酶(histone deacetylase,HDAC)。值得注意的是,研究人员发现哺乳动物中与 trapoxin 结合的蛋白质是芽殖酵母转录共抑制子 Rpd3 的直系同源物。这一具有里程碑意义的发现表明,组蛋白去乙酰化与转录抑制有关。总而言之,1996 年 HAT 和 HDAC 的工作给出了令人信服的接连冲击(one–two punch),即组蛋白乙酰化和去乙酰化直接与基因调控的“开启”和“关闭”状态相关联,这也正如 Allfrey 当初预想的那样。
图 2. 染色质状态的酶活定义,包括 p55 催化的组蛋白乙酰化刺激基因激活或 SUV39H1 催化的组蛋白甲基化抑制基因活性。1996 年,嗜热四膜虫中组蛋白乙酰基转移酶p55被鉴定为转录共激活因子,可以催化组蛋白 H3 乙酰化。H3K14ac 为溴结构域蛋白提供了停靠位点,进一步刺激核小体的可及性以及转录活性。组蛋白乙酰化可以被 HDAC 去除,进而造成转录抑制。2000 年,人类组蛋白赖氨酸甲基转移酶 SUV39H1 被鉴定为果蝇中 Su(var) 的同源类似物,可甲基化组蛋白 H3 的 N-端尾巴。H3K9me3 为染色质域(chromodomain)蛋白 HP1 提供了停靠位点,随后损害了染色质的可及性并诱导基因抑制。在当时,这种组蛋白甲基化是否可逆还不清楚。
HAT 和 HDAC 的开创性发现使得人们猜想,是否还存在其他具有类似活性的蛋白。2000 年,Guarente 和同事证明,酵母中基因沉默所需的关键蛋白 Sir2 是一种依赖于烟酰胺腺嘌呤二核苷酸(NAD)的 HDAC。随后,研究人员在哺乳动物细胞中鉴定出 7 种类似 Sir2 的酶,现在称之为 Sirtuin 蛋白家族。与其他 HDAC 相比,除了具有独特的辅助因子和催化需求外,Sir2 相关的 HDAC 在新陈代谢和衰老方面的作用也引起了科学家们浓厚的兴趣。
虽然取得了一些显著的进展,但组蛋白乙酰化诱导形成活性染色质状态的机制仍然未知。长期以来人们认为,组蛋白乙酰化通过中和组蛋白中的基本电荷,减弱与 DNA 的相互作用(顺式效应),进而调节染色质结构和基因活性。1999 年,Zhou 和同事发现,PCAF 的溴结构域可作为乙酰基-赖氨酸结合模块,用于对接乙酰化组蛋白。这是本文将要描述的第一个组蛋白修饰结合结构域,它揭示了含溴结构域的因子与染色质中乙酰化靶标结合的新机制(反式效应)(图 2)。截止目前,已经鉴定了多种染色质结合模块以及它们同源的组蛋白配体。
3.2 基因抑制和异染色质
Reuter 鉴定果蝇的 PEV(Position-Effect Variegation, 位置效应花斑,在某些细胞中由于染色体重排或转座使某些基因移到异染色体的附近而不能表达,从而形成花斑的现象)修饰因子,其含有一个进化保守的 SET 结构域;而 Jenuwein 克隆和表征了其在哺乳动物中的同源类似物。第一个组蛋白赖氨酸甲基转移酶(KMT)将这两个发现联系了起来。SET 结构域存在于 Su(var)3-9、E(z) 和 Trithorax 蛋白中,这些蛋白都与表观遗传调控有关,但是缺乏酶活性相关的证据。Jenuwein 预测了 SET 结构域的催化活性,然而,要揭示 SET 结构域与甲基转移酶的远距离关系还需要更精细的生物信息学分析。而研究发现,SUV39H1(Su(var)3–9 同源类似物 1)介导的组蛋白H3磷酸化与基因调控有关,这一发现启发了一个关键的实验:检测重组的 SUV39H1 的组蛋白赖氨酸甲基转移酶活性。该体外实验揭示了重组 SUV39H1 的 SET 结构域对组蛋白 H3 强烈的催化活性。随后,Jenuwein 和 Allis 实验室合作研究表明,SUV39H1 选择性地甲基化组蛋白 H3 第 9 位赖氨酸(形成 H3K9me3);这是表观遗传魔法(epigenetic ‘magic’)卓有成效的案例,因为 Su(var)3-9 基因的遗传分类显然预测了酶的底物和位点特异性。2000 年,Jenuwein 发表文章,鉴定了第一个组蛋白赖氨酸甲基转移酶 SUV39H1。
SUV39H1 发现后不久,就发现 HP1 的染色质域(chromodomain)可以与甲基化的 H3K9 结合,正如裂殖酵母中 HP1 相关的蛋白 Swi6 一样。综上所述,这些发现为自 1928 年以来一直空缺的异染色质的形成和传播提供了生化解释,并鉴定了自 20 世纪 60 年代以来一直令人费解的组蛋白赖氨酸甲基化的酶类。非常重要的是,负责基因抑制和异染色质组装的 SUV39H1-HP1-H3K9me 系统比 DNA 甲基化更为保守,它们存在于单细胞生物(例如裂殖酵母)、植物和无脊椎动物(例如果蝇)以及复杂的多细胞生物(哺乳动物和人类)中。
SUV39H1 的 SET 结构域提供了一个标志性的催化域,大量含有 SET 结构域的蛋白作为潜在的 KMT 被检测。在哺乳动物基因组中发现了大约 50 个编码含有 SET 结构域蛋白的基因,其中许多蛋白得到了深入研究。组蛋白赖氨酸甲基化既可能发挥抑制作用,如 SUV39H1 介导的 H3K9me3,也可发挥激活作用,如 H3K4 甲基化。其他研究组在哺乳动物中鉴定了受发育调控的沉默或激活的染色质状态(如 G9a 催化的 H3K9me2,EZH2 催化的 H3K27me3,Trithorax 和 MLL 催化的 H3K4me3),以及失活的 X 染色体的抑制性染色质结构。此外,还鉴定了不包含 SET 结构域的 KMT,它们可以甲基化组蛋白核心区域(非尾巴)位点(如 DOT1L 甲基化 H3K79)。除了组蛋白赖氨酸甲基化外,组蛋白精氨酸甲基化也与基因调控有关,如共激活子 CARM1 或 PRMT1 可以通过 H3R17 或 H4R3 甲基化介导依赖于激素的转录刺激。
显然,组蛋白修饰对于依赖于染色质的基因调控至关重要。然而,在当时组蛋白赖氨酸甲基化是否像组蛋白乙酰化一样是可逆的仍然是一个关键问题,这有待更深入的研究。
4. 表观遗传研究的现代时期
可以认为,上述研究,再加上全基因组染色质图谱等新技术的发展,开辟了我们所说的“表观遗传学现代研究”,自 2000 年以来该领域的大量出版物也证明了这一点。新的会议和倡议推动了世界范围内对表观遗传控制的本质机制深入研究的浪潮。典型的例子包括由冷泉港实验室、美国癌症研究协会(AACR)、戈登研究会议(GRC)组织、美国实验生物学协会联合会(FASEB)和 Keystone 专题研讨会等机构组织的专门致力于表观遗传学的会议。此外,还成立了几个大型联盟,如欧洲的卓越的“表观基因组”和“表观基因系统”网络(The Networks of Excellence ‘The Epigenome’ and ‘EpiGeneSys’)、美国国立卫生研究院(NIH)的表观基因组计划路线图(Roadmap Epigenomics Project)和 ENCODE 计划,以及国际人类表观基因组联盟(IHEC),这些联盟将欧洲、美国、加拿大、亚洲等地的科学家紧密联系起来。
下面本文将描述 2000 年至 2016 年间的重大突破性发现。这些发现在图 3 中是按时间顺序排列的,我们并不总是按照严格的顺序来展示它们,而是将它们归类为连贯的机制和概念上的进展。
图 3. 1996~2006 年间表观遗传研究领域重要发现和进展的时间线
4.1 组蛋白密码假说及相关理论
越来越多的组蛋白共价修饰表明核小体携带表观遗传信息,然而这种信息是否由顺式或反式的机制介导尚不清楚。1999 年 Zhou 和他的同事发现了结合乙酰化赖氨酸的溴结构域,为一年后提出的一个有影响力的假说——“组蛋白密码假说(histone code hypothesis)”提供了第一条实验证据。“组蛋白密码假说”认为,组蛋白修饰的组合模式导致了不同的生物学结果,部分通过反式招募下游效应蛋白(称为“阅读者”,以匹配组蛋白修饰酶的“书写者”)或复合物。“组蛋白密码假说”预测,此后还会鉴定其他组蛋白修饰的阅读者。事实上,很多种类型的组蛋白结合模块已经被鉴定(例如染色质域、tudor 域和 PHD 指结构域),其结构深入阐明了它们与相应配体结合的特异性,这又进一步拓展了“组蛋白密码假说”,包括将其翻译成更广泛的“表观遗传密码(epigenetic code)”。这些假说的其他后续拓展包括组蛋白盒(histone cassettes),二元开关(binary switches)和效应子-配体结合反应的多价性(multivalency)。尽管科学界质疑组蛋白修饰的共价“语言”是否满足成为真正“密码”的标准,但毫无争议的是,除了顺式机制(电荷效应),效应蛋白结合的反式机制在组蛋白和 DNA 修饰读取中发挥重要作用。
4.2 组蛋白修饰和 DNA 甲基化
组蛋白修饰的组合特性也不禁让人们好奇:组蛋白修饰与 DNA 甲基化是否在功能上存在联系。MeCP2 与 HDAC、转录共抑制因子 SIN3A 相互作用,引发转录抑制。Selker 及其同事利用真菌模型粗糙链孢霉提供了令人信服的证据:组蛋白 H3K9 甲基化(由 DIM5 催化)是 DNA 甲基化所需要的。随后在植物中的研究进一步支持了这些发现,其中 H3K9 甲基转移酶 KRYPTONITE 控制 DNA 甲基化。此时,H3K9 甲基化作为 DNMT 染色质甲基化酶(chromomethylase)的停靠位点,进而抑制沉默重复元件。多结构域蛋白,如 UHRF1(也称为 Np95)可以连接 H3K9 甲基化和半甲基化 DNA,以稳定 DNMT1。催化失活的 DNMT3 样衔接子(DNMT3-like adaptor)通过其 ADD 结构域选择性地结合未修饰的 H3K4,一旦 H3K4 被甲基化为 H3K4me3,这种选择性结合就被阻断。
对于发育控制的基因表达和多梳蛋白复合物介导的沉默而言,组蛋白修饰和 DNA 甲基化之间的相互依赖揭示了它们之间复杂的关系。然而,不同的 DNA 序列是否可以指导 DNA 甲基化的存在与否仍然不清楚。2010 年突破性地发现, CpG 岛对转录因子具有亲和力,例如 CXXC 型锌指蛋白1(CFP1),它可以募集活化的 KMT 并阻止 DNA 甲基化。因此,富含 CpG 的 DNA 可以靶向活性染色质结构并保护其免于从头 DNA 甲基化,即使在转录暂停或中止情况下也是如此。低、中、高水平 CpG 的 DNA 甲基化的差异也可以解释不同的转录因子是否可以进入其同源结合位点。
4.3 非编码 RNA 和基因转录沉默
尽管在组蛋白和 DNA 修饰方面取得了显著进展,但对于这些标记是如何被添加到特定的基因组位置还知之甚少。研究发现小 RNA 可作为潜在“模板”分子,这为该问题提供了部分解答。在 2002 年,四个研究组使用裂殖酵母(Grewal 和 Martienssen)和四膜虫(Allis 和 Gorovsky)模型,报道了小 RNA 与基因组特定位点相互作用,并可能指导基因组特定位点的染色质修饰活性。在细胞质中,小RNA阻断信息翻译从而抑制基因表达,这一过程称为 RNA 介导的干扰(RNAi)或转录后基因沉默(PTGS);而在细胞核中,这些小核 RNA 介导了 “基因转录沉默(transcriptional gene silencing,TGS)”过程,不仅指导了裂殖酵母中的异染色质组装和基因沉默,还指导了嗜热菌的程序化 DNA 消除。在这两个模型中,小 RNA 与组蛋白赖氨酸甲基化复合物的已知组分相互作用,这使得人们怀疑这些系统进化是为了保护基因组免受有害 DNA 元件或病毒的侵害;因为如果没有适当的沉默机制,这些有害的 DNA 元件或病毒可能会破坏基因组。在该模型的扩展中,非编码 RNA(ncRNA)的转录通常被认为是一种全基因组的监控机制,在 RNA 质量控制中发挥着重要作用。
尽管这些途径中不同分子步骤的顺序仍不清楚,但这些发现强调了 DNA、RNA 和组蛋白及其修饰以协同方式发挥作用,以产生对发挥基因功能很重要的染色质状态。TGS 途径代表了 RNA 介导的异染色质化机制中的一种序列互补机制,其中 RNA 信号回到 DNA 并建立抑制性的染色质状态,而且可以在许多细胞分裂中传递下去。
4.4 核小体重塑和组蛋白变体
ATP 依赖的染色质重塑复合物为改变组蛋白-DNA 接触、促进 DNA 可及性以及新旧组蛋白的交换或转录因子进出染色质提供了另一种重要机制。在 1992-1998 年期间,遗传和生化研究鉴定了 SWI/SNF、NURF 和其他 ATP 依赖的核小体重塑复合物,并对它们的作用机制提供了早期的阐述,而这正是目前非常活跃的表观遗传学研究领域。癌症中人 BAF 重塑复合物组分的高频突变进一步刺激人们的研究热情。
组蛋白变体,与其主要的经典组蛋白仅有少量氨基酸的差异,起初人们认为它们与经典组蛋白在氨基酸序列上过于相似,差异太过微小,因而并不重要。当研究聚焦于黑腹果蝇组织培养细胞中的 H3 变体(H3.3)时,发现 H3.3 可独立于 DNA 复制而放置入染色质中,并优先靶向转录活跃的染色质。此后不久,生化方法记录了一个 H3.3 选择性伴侣(HIRA),它不同于在 S 期执行的 H3(H3.1 和 H3.2)置入系统(染色质组装因子 1,CAF1)。组蛋白变体进出染色质的快速交换,这一过程由专门的分子机器介导,这种分子机器可以识别特定的组蛋白变体,这种现象支持了这样的理论:组蛋白变体是染色质纤维变异的主要机制。甚至着丝粒染色质也有其特异的 H3 变体(在哺乳动物中被称为着丝粒蛋白 A,即 CENP-A),越来越多的证据表明,CENP-A 标记了具有自身表观遗传身份的着丝粒。其他非 H3 组蛋白变体也引起了相当大的关注,例如, H2A.X,当其磷酸化时,显著标记染色质中 DNA 双链的断裂; H2A.Z,一种富集在转录起始位点的变体,该位点与 5mC 呈反相关;macroH2A,一种富集在无活性X染色体上长的 H2A 亚型。显然,染色质介导的表观遗传调控的难题有很多,但组蛋白变体表明,即使是一些最小的一个也至关重要。
图 4. 染色质促进表观基因组功能的关键案例
4.5 所有染色质标记都是可逆的
组蛋白的“擦除者”因组蛋白乙酰化(去乙酰化酶)和磷酸化(磷酸酶)而为人所知,这是两种主要的组蛋白修饰,它们具有良好的周转特性,可动态响应细胞的转录需求。相比之下,组蛋白甲基化的擦除者并不为人所知,这使得它很可能成为“永久性的”组蛋白标记——也就是说,可能不具有酶促可逆性。这是一个有吸引力的概念:如果组蛋白甲基化标记是稳定的表观遗传标记,它们可能具有遗传潜力。2004 年,Shi 和同事打破了这个概念,他们发现并鉴定了第一个组蛋白赖氨酸去甲基化酶(KDM)——LSD1(赖氨酸特异性去甲基化酶 1),一个核 FAD 依赖的胺氧化酶同源物。但是,LSD1 不能使组蛋白赖氨酸三甲基去甲基化,表明赖氨酸三甲基化可能是一个永久性的表观遗传标记。然而,不久之后,Zhang 和同事通过在该领域引入第二类赖氨酸去甲基化酶—— Fe(II)和 α-酮戊二酸依赖的含有 Jumonji 结构域的双加氧酶,进而反驳了这一观点。这类酶能够去除组蛋白中的三甲基-赖氨酸标记,从而支持所有表观遗传标记都可能是可逆的这一普遍观点。与其他擦除者一样,KDM 表现出了显著的底物和位点特异性,KDM 研究迅速发展成为具有重要催化和调节功能的表观遗传调控物质。
从历史角度看,对于 DNA 甲基化的可逆性这一基本问题,特别是对于 5mC 的丢失,也存在相当大的困惑。长期以来发育生物学家描述了在生殖细胞成熟和早期胚胎发生过程中出现的两波全基因组 DNA 去甲基化浪潮;然而,DNA 甲基化去除过程长期以来一直难以捉摸,因此研究认为,DNA 甲基化去除是被动过程(通过 DNA 复制稀释),而非主动过程(酶促驱动)。5-羟甲基胞嘧啶(5hmC)的鉴定为解答这个难题提供了关键一环。重要的是,Rao 和 Zhang 的研究鉴定了一个新的 TET1-3 酶家族,它们能够将 5mC 氧化为 5hmC,还可以进一步氧化为 5-甲酰基胞嘧啶(5fC)和 5-羧基胞嘧啶(5caC)。随后可以通过 DNA 糖基化酶对这些修饰碱基进行酶促切除,从而产生完全去甲基化的 DNA 模板。与组蛋白甲基化一样,DNA 甲基化也具有丰富的书写者、阅读者和擦除者。显然,DNA 共价修饰“语言”的复杂性与组蛋白的复杂性一样在增加。
4.6 二价染色质(bivalent chromatin)和表观基因组特征
到 2005 年,组蛋白乙酰化、磷酸化和甲基化等标记作为一组受到广泛研究的组蛋白修饰脱颖而出。质谱等敏感方法持续揭示出数量惊人的组蛋白修饰,尽管其中许多修饰的数量并没有主要标记那么丰富。相应地,修饰选择性抗体也被开发出来,并经常被用于 ChIP 分析,用来检测你最感兴趣的基因。几个有远见的实验室采用了一种不同的、强大的方法,开发了全基因组 ChIP 的衍生方法,在正常和异常状态下更广泛地剖析表观遗传景观。该方法的早期版本将H3K4me2(作为染色质“开”的标记)与 H3K9me2(作为染色质“关”的标记)进行了比较,结果既丰富又引人注目,发现这些标记间具有显著的负相关性。借助 ChIP-seq 将这些研究可以很好地扩展到胚胎干细胞(ES)中,部分原因是由于 ES 细胞具有被诱导进入特定分化途径的能力。不久,组蛋白标记的一致模式出现了。例如,H3K4me3 与活性启动子元件相关,而 H3K27me3 则富集于发育控制的抑制性染色质状态中。这些有指导意义的表观基因组“特征”开始出现,引起了人们对今天仍在使用的全基因组方法的兴趣。
然而,在 2006 年,对组蛋白标记来说,这种具有吸引力的开关逻辑被证明过于简单。Lander 和 Fisher 里程碑式的研究意外地发现,胚胎干细胞中存在同时具有激活和抑制标记的,处于发育“蓄势待发的(poised)”基因。H3K4me3 和 H3K27me3 重叠的模式被称为“二价染色质(bivalent chromatin)”。“蓄势待发的(poised)”基因的二价特征的发现是出乎意料且非常重要的。它提供了第一个关于“中间”状态的线索,其中二价标记的基因可以在发育过程中分解为活性或非活性状态。二价染色质不是胚胎干细胞特异性的,在其他细胞类型中也有详细的记录。
如何在核小体水平上建立和组织二价染色质仍然是一个重要的问题。相反的 H3K4me3 和 H3K27me3 是标记在同一个H3尾部还是不同 H3 尾部,是同一个核小体内或相邻核小体上的?由 Reinberg 牵头的研究表明,H3K4me3 和 H3K27me3 标记并不是存在于同一个H3尾部,这导致了核小体内的不对称分布。这种排列对二价结构域的建立和传播有影响。
不出所料,这种复杂性在一定程度上有助于微调染色质中其他基因顺式调控元件的标记。细胞类型特异性的“活性”增强子通常由一组表观遗传标记来定义,如 H3K4me1 和 H3K27ac。因此,当在基因组水平上分析组蛋白修饰时,发现了可复制的模式,从而可以预测哪些遗传元件是有功能的(称为表观基因组分析)。将染色质改变(核心组蛋白修饰和 DNA 甲基化的集合)与核小体位置和转录因子结合位点共定位,并与基因组的总 RNA 输出整合。具有指导意义的组蛋白修饰模式——如增强子区的 H3K4me1和 H3K27ac,启动子区的 H3K4me3,转录区的 H3K36me3,Polycomb 介导的抑制区域中的 H3K27me3 和异染色质区的 H3K9me3,已被 NIH 路线图表观基因组学联盟(Roadmap Epigenomics Consortium)和 IHEC 用于简要描述参考表观基因组并比较正常和疾病细胞状态的表观基因组特征。现在,技术的新进步使得对单细胞表观基因组的分析更加精确,其对细胞谱系维持的贡献也有了新的认识。单细胞转录组进一步拓展,已经揭示了几乎整个基因组都被转录,从而产生一系列具有不同调节功能的 ncRNAs,这些 ncRNAs 可能在表观遗传景观方面发挥重要作用,目前仍在积极研究中。
5. 发育与疾病
从上述许多突破性的发现和概念上的进展来看,涌现出了表观遗传控制的分子标志(molecular hallmarks of epigenetic control),其对于细胞身份和细胞重编程非常重要。最重要的是,这些标志响应发育和环境变化,并且可能会被染色质修饰酶的化学抑制和修饰阅读蛋白所逆转。表观遗传响应(epigenetic response)的许多方面——例如,不同饮食的代谢波动、昼夜节律、衰老以及从同一基因组模板表现出表型多样性(例如基因组印记和双胞胎研究)最近已得到综述,这些超出了本文的范围。在这里,我们关注表观遗传控制的分子标志在发育(例如重编程)以及正在治疗或已被证明对表观遗传治疗有响应的人类疾病的一些关键例子(例如癌症、炎症和免疫反应)中的作用。
5.1 重编程的表观遗传障碍
表观遗传控制对细胞类型特性和细胞重编程至关重要。Weintraub 及其同事的开创性实验表明,顺式作用转录因子 MyoD——一种对肌肉分化至关重要的因子,可以重编程成纤维细胞。20 年后,当 Yamanaka 和他的同事们使“时光倒流”时,这种逻辑重新浮出水面,为 Gurdon、Briggs 和其他人经典的细胞核重编程实验提供了开创性的机制见解。他们开创性的研究表明,在分化成体成纤维细胞中表达的一小部分特定转录因子(现在称为“Yamanaka 因子”,包括 Sox2、Oct3/4、Klf4 和 c-Myc)将诱导产生多能性,从而产生诱导多能干细胞(iPS 细胞)。
从成体组织中重新编程体细胞的潜力对再生医学具有令人兴奋的意义,尽管诱导多能干细胞的过程效率低下,且尚未准备好用于人类。染色质状态在多大程度上阻碍体细胞重编程的能力呢?通过阻断 H3K9me3 的 KMT 或用维生素 C 刺激 Jumonji 组蛋白赖氨酸去甲基化酶和 TET 酶,可提高重编程效率,这表明异染色质可能是一个障碍,至少在一定程度上,导致了这些重编程事件的低效率。为了支持这一观点,已经鉴别了“先驱”转录因子(pioneer transcription factors),它们能够结合到抑制性染色质区域,招募辅助因子和染色质调控因子,这些辅助因子和染色质调控因子能够诱导下游基因调控级联反应,而这种级联反应可以克服抑制性染色质状态。一般认为谱系可塑性(细胞身份的变化)具有表观遗传学基础,可能在重编程中发挥重要作用,研究观察到了染色质修饰酶表达水平变化和改变表观遗传机器的辅助因子的波动,这些为上述观点提供了支持,并会导致细胞命运的转变。
图 5. 表观遗传控制的分子标签以及它们医学相关性的案例,还有可能的治疗策略
5.2 癌症和表观遗传治疗
上面提到的大多数突破性发现的动机,并不需要与疾病产生明确的联系。癌症研究通常聚焦于肿瘤发生过程中的基因变异(如突变、基因重排和拷贝数变异),使得大多数癌症显示出明确的“标签”。早期,人们发现异常的表观遗传特征(例如 DNA甲基化)在癌症中具有潜在的临床重要性,为推进表观遗传治疗提供了强大动力。Jones 和 Baylin 应用 DNA 甲基化的化学抑制剂(DNMTi)重新激活异常沉默的肿瘤抑制基因,同时还使用 HDACi,例如由 Yoshida 开发的 TSA(曲古抑菌素 A)和 trapoxin,随后使用由 Marks 临床应用的 SAHA(辛二酰苯胺异羟肟酸,也称为伏立诺他),为表观遗传学这一激动人心的领域铺平了道路。
2006 年,随着美国食品和药物管理局(FDA)批准的第一批表观遗传药物(地西他滨和伏立诺他)用于人类癌症的治疗,这些概念变成了现实。逆转癌症患者的表观遗传错误为表观遗传学的重要性提供了最有说服力的论据之一。一种以表观遗传学为中心、以试剂为基础的生物技术公司产业正在兴起。甚至大型制药公司也开始采取行动,他们普遍认为,与基因改变不同,表观遗传特征中的错误将是可逆的。用 DNMTi 和 HDACi 治疗可以获得有希望的临床结果,我们从中获得启发,即其他类型的“书写者”和“擦除者”也可能成为有价值的药物靶点。此外,耐药癌细胞可以对 HDACi 和去除 KDM 的联合疗法产生响应,这种联合疗法切断了癌细胞的存活通路,并诱导更高水平的 DNA 损伤。一般认为,癌症细胞可能有更脆弱的染色质和更高的“表观遗传噪声(epigenetic noise)”,这种概念可以解释为什么它们更容易响应选择性的杀伤治疗(通过表观遗传抑制剂与放疗结合)。
尽管迅速涌现的文献提供了表观遗传学和其他非癌症疾病之间的大量联系,但是癌症仍然是可能响应表观遗传学治疗的最有说服力的疾病。2012 年,某些类型的癌症甚至与组蛋白中的“驱动”突变有关,这类突变被称为“原癌组蛋白(oncohistones)”。
组蛋白修饰酶,无论是阅读者还是擦除者,都被证明是肿瘤学中具有潜力的药物靶点。Bradner、Tarakhovskly 和 Kouzarides 团队的研究为表观遗传靶点和疗法添加了新的阅读者。他们选定了一些含溴结构域的蛋白质,例如BET家族的成员,而且证明这些蛋白可作为小分子(例如抑制剂 JQ1 或 iBET)的成药靶蛋白,这些小分子与乙酰赖氨酸结合口袋结合,以破坏关键蛋白质-组蛋白的相互作用。与 HAT 和 HDAC 的其他小分子抑制剂一样,下游反应是非随机的。例如,被这些小分子靶向的溴结构域蛋白之一BRD4研究得更为透彻,BRD4 反过来又参与转录延伸通路,这种通路对血癌中促进肿瘤的关键致癌基因(如 MYC)和促炎基因(如 NFKB)的表达非常关键。而现在,随着溴结构域抑制剂的成功,其他染色质阅读者也受到了极大的关注。
5.3 免疫防御
在细胞谱系特化、对外界信号的响应和细胞记忆的诱导中,染色质介导的基因调控富集于免疫系统。造血细胞系的细胞通过改变染色质状态整合信号,而且可以引起对激活状态的“记忆”,正如巨噬细胞中那样。炎症信号(例如脂多糖)引起促炎基因(例如 NFKB,其通常已经被 RNA 聚合酶II(Pol II)占据)的转录激活,以实现快速响应。停滞不前的 RNA Pol II 的延伸被阻止,并需要 PCAF-HAT 延伸复合物,这是许多基因的特征。*NFKB *对 iBET 的选择性响应是通过干扰 PCAF 与促炎基因的结合来抑制炎症。
表观遗传控制对免疫细胞的激活也很重要,并可通过药理学治疗增强免疫反应。出乎意料的是,研究发现组蛋白甲基转移酶 EZH2 通过甲基化细胞质的肌动蛋白而转导 T 细胞活化,这为许多组蛋白修饰酶具有非组蛋白底物提供了典型的案例。此外,HDACi 可通过阻止活化诱导的细胞死亡(activation-induced cell death)来维持 T 细胞的活化。KMT G9a 的药理学抑制和释放的基因抑制导致干扰素基因的激活,并导致对病原体的抗性增加。DNMTi 不仅影响肿瘤抑制基因,还影响那些对DNA甲基化降低做出响应的重复元件。用低剂量的 DNMTi 对几种癌症进行治疗,激活了内源性逆转录病毒,引起 dsRNA 介导的免疫反应,随后这种免疫反应靶向肿瘤细胞。打破免疫耐受和增强免疫反应是对抗癌细胞的两种主要机制。因为几乎所有的组蛋白修饰酶也靶向许多非组蛋白蛋白(这是 Roeder 及其同事首次描述肿瘤抑制因子 p53 乙酰化时提出的概念),因此临床研究需要仔细使用和分析小分子抑制剂。具体而言,需要慎重考虑表观遗传治疗在攻击肿瘤细胞和不削弱防御性的免疫细胞之间的平衡。
涉及非组蛋白蛋白(non-histone proteins)的翻译后修饰的表观遗传控制进一步扩展了功能性染色质输出的调节。例如,组蛋白中的不同修饰盒(modification cassettes),特别是 ARKS/T 型的修饰盒也存在于几种非组蛋白的蛋白质中,并允许翻译后修饰和识别者蛋白的识别。据报道,G9a 中的一个短的组蛋白模拟物(histone mimic)需要通过自甲基化(automethylation)来触发其活性,从而产生组蛋白“拟态(mimicry)”的概念。流感病毒的非结构蛋白 1(NS1)含有一个氨基酸序列,该氨基酸序列与组蛋白 H3 的 N-端密切相关,可感应 H3K4 甲基化。NS1 中的 H3K4 样甲基化会转运 PCAF 并减弱抗病毒基因的转录。因此,“组蛋白拟态”被病原体衍生的蛋白用于抑制细胞防御。这些激动人心的发现已经被正式提出,某些组蛋白肽模拟物具有发展成新型的表观遗传药物的潜力。
5.4 染色质遗传(记忆)
在表观遗传研究的激烈争论中,一个核心问题是组蛋白及其修饰是否是表观遗传学信息的真正载体。与 DNA 甲基化或其他修饰不同,组蛋白遗传的机制仍未得到解决,部分原因是长期以来关于组蛋白(旧与新)是如何在复制叉上分离的争论。早期 Grewal 和 Klar 在裂殖酵母、Paro 及其同事在黑腹果蝇中的研究暗示染色质状态转换可能是可遗传的。最近,Moazed 和 Allshire 团队的研究表明,在缺乏顺式作用的转录因子或结合 H3K9 的 DNA 序列的情况下,H3K9 甲基化可以被瞬时诱导并在多代中遗传。重要的是,这种染色质遗传需要缺失阻碍 H3K9 甲基化的拮抗因子。Strome 及其同事的类似发现揭示了在秀丽隐杆线虫中 PRC2 介导 H3K27me3 的染色质遗传。综上所述,这些研究表明,至少在这些模型中,组蛋白可以传递它们的信息,尽管确切的分子机制正在积极研究中。为此,Reinberg、Gamblin 及其同事表明,抑制性组蛋白标记 H3K27me3 的传播是通过其非催化亚基 EED 对 PRC2 复合物的正向变构调节引起的。这些关于 PRC2 的研究和新的结构工作非常重要,因为它们为染色质前馈环路(feed-forward loops)提供了生化证据,而前馈环路很可能有助于组蛋白修饰的遗传。
这样的结果是否可以推广到表观遗传因子的多代遗传,即跨代遗传(transgenerational inheritance)这一普遍现象?事实上,果蝇和小鼠中的研究表明,饮食和其他环境因素的变化,特别是父亲的饮食,可以传递给子代,并重新编程子代的代谢,从而导致世代的肥胖。和在裂殖酵母中的实验一样,组蛋白甲基化的改变似乎参与其中。由于组蛋白标记可以影响负责从头 DNA 甲基化以及 ncRNA 表达的酶系统,因此其他更传统的核酸模板机制也可能进入整体的表观遗传学遗传程式。在植物中,“表观遗传控制者”——移动RNA,已被证明是表观遗传信息的载体,并且小 RNA 序列已被用于受精的小鼠卵母细胞的重编程。近期研究在精子中检测到 ncRNA 和 tRNA 片段,这表明不仅只有 DNA 序列可以被遗传。
6. 展望
在过去的 20 年里,表观遗传调控的分子机制的解析取得了意想不到的进展,这对更好地理解正常发育以及人类疾病的治疗具有深远影响。在此,我们提倡对表观基因组特征进行更精确的定义,借鉴单细胞分析的进展,但强调有必要区分表观基因组改变的原因或结果。为此,我们将继续使用 CRISPR-Cas9 基因编辑技术,以便对遗传和表观遗传调控进行更全面的解析。染色质动力学不再被认为是一维或二维的问题,因为三维空间中的长期相互作用,产生了构建基因组的拓扑相关结构域(TAD)和其他染色质区域(chromatin territories),其有很好的文献记载以及定义它们的新方法。此外,ncRNA在表观遗传调控的许多方面的重要性远远超出 RNAi 介导的 TGS 和 miRNA 依赖的 PTGS,并揭示了越来越多的染色质相关的 RNA(例如,lncRNAs、增强子 RNA 和重复 RNA),它们可以启动和稳定不同的染色质状态,甚至在具有相同DNA序列的等位基因中也是如此。事实上,RNA 被认为是表观遗传调控的“主要分子”之一,ncRNA 的重要功能在最近的综述中已经被详细阐述。
随着更精准的抑制剂(如 HDACi、DNMTi、iBET 和去乙酰化酶抑制剂)的开发,对更复杂的人类疾病(如代谢和神经退行性疾病)和习以为常的功能(如学习和记忆)的探索性研究将揭示对表观遗传联合疗法的响应。此外,新的实验系统正被用来分析表观遗传学对群居昆虫行为和表型多态性的贡献。特别是对于代谢紊乱和环境驱动的适应,染色质似乎是整合变化输入的生理模板。鉴于 1996 年至 2016 年间取得的进展,我们预计会有更多的发现将继续揭示染色质适应性是如何组织和显露存储在我们基因组中的信息的。
全文完。
编译整理:杨智聪、刘梦醒、徐鹏