Lineage-Determining Transcription Factor TCF-1Initiates the Epigenetic Identity of T Cells
初期学习者,跟着别人的学习脚步学习了科学文献的搜索,观看和构思。
一、介绍 Introduction
文章使用染色质开放检测技术(ATAC-seq)研究T细胞成熟过程中开放染色质的变化,发现成熟早、中、晚期启动的开放染色质都富集转录因子TCF-1的结合motif。
在TCF1敲除的T细胞中,染色质开放程度变化的位点富集TCF-1, motif,也许与这些位点附近基因的转录变化相关。
在成纤维细胞中表达TCF-1后,它可能挤出核小体去结合DNA,从而使染色质开放;TCF-1结合到成纤维细胞中异染色质的区域,使它们转化为活跃组蛋白修饰的区域;引起表达T细胞特异和T细胞发育相关富集基因上调。(确定了TCF-1在T细胞基因染色质可及性形成中的作用,并揭示了该蛋白在发育过程中控制T细胞表观遗传特性的机制。)
作者推测TCF-1的作用类似先驱因子(pioneer factor),招募染色质重塑蛋白打开染色质,但可能有其它蛋白、染色质高级结构、甲基化等因素参与或影响这个过程。
二、结果 Results
2.1 Chromatin Remodeling Occurs in Three Waves during T Cell Development
在T细胞发育过程中,染色质重构分为三波发生。
作者对这些调控元件的无监督聚类揭示了细胞在T细胞命运决定的早期到晚期过程中染色质可及性的获得和丧失模式(图2-1A)。
作者将染色质可及性的得失模式聚合成更广泛的元调控因子,捕捉发育早期、中期和晚期的选择性开放。
数据显示,成熟T细胞的可持续性可达性可分为三个不同的阶段:ETP早期(1705个调控元件,聚类9)、DN2b承诺后的中期(1399个调控元件,聚类19)和单阳性阶段的晚期(1,917个调控元件,聚类10)(图2-1A和B)。
分析进一步揭示了获得模式被拆除了在T细胞成熟前,这种模式可能发生在早期ETP阶段,由于在染色质调控因子损失75%(9071)导致的染色质易访问性损失。
2.2 TCF-1 Is the Top Enriched Transcription Factor in Mature T Cell Clusters
TCF-1是成熟T细胞簇中最高富集的转录因子.
作者推断,能够与祖细胞核糖体DNA结合并为最终分化细胞创造染色质可及性景观的转录因子,应在该谱系中选择性开放的调控元件中富集。
与文献一致的结果:证明数据、方法可靠.
为了找到具有这些特征的转录因子,作者通过motif分析推断其在细胞和阶段特异性调控元件中的占用情况。(序列 motif 就是一段有功能的、特定模式的序列,它之所以可以具有生物学功能,是因为它可以和调控蛋白结合,如转录因子、核糖体等。)
在T细胞中,高迁移率组(HMG) TCF的识别位点蛋白质家族是染色质开放早期、中期和晚期持续存在的最高富集基序直至T细胞成熟。(图2-2:B-E)
正如其motif富集所预测的那样,TCF-1结合到早期和中期T细胞特异性簇中约70%的基因组区域,而在晚期T细胞簇中仅结合到24%。
成熟前失活的早期调控元件被PU.1结合富集,这让人想起早期的发现,在DN早期阶段,随着PU.1的下调,PU.1结合事件中大多数活性染色质特征被“拆除”。(图2-3:F)总之,TCF-1的普遍结合证实了其基序在T细胞的可及调控元件上的强富集.虽然T细胞承诺因子Bcl11b在ETP中的表达水平较低,但该基因近端多个T细胞特异性调控元件在早期就可获得,并与TCF-1结合共定位(图2-3:G)
总的来说,这些结果展示了T细胞发育过程中调控元件的扩张和限制的动态,并预示了TCF-1在构建从早期胸腺祖细胞到成熟T细胞的调控格局方面的重要性
2.3 Tcf7-Deficient T Cells Cannot Establish the OpenChromatin Landscape of Normal T Cells
缺乏tcf7的T细胞无法建立正常T细胞的开放染色质景观
TCF-1的种系缺失导致胸腺细胞数量严重减少(Verbeek et al., 1995)。尽管在tcf7缺陷小鼠的胸腺中,一些T谱系样细胞继续发育,但在感染过程中,它们在分化和记忆T细胞的持久性方面功能有限。
目前尚不清楚这些T样细胞的染色质可及性景观和转录输出是否不同于正常T细胞。
因此,作者接下来测量了野生型和Tcf7/ DP T细胞中TCF-1结合事件中染色质的可达性。
数据显示Tcf7/ T细胞在5000个调控元件时染色质可达性缺失,在1165个基因组位点时可达性增加(图2-3:A)。
作者试图阐明在T细胞发育过程中需要TCF-1的可达性的调控元件与三波染色质开放之间的关系(图2-3:F)。
在缺乏TCF-1的情况下,失去染色质可达性的调控元件在T细胞发育过程中,在染色质开放的早期或中期波中强烈富集,这表明该转录因子是染色质早期形成模式所必需的(簇7、9和19)(图2-4)。
受影响区域的例子包括注释良好的Tcrb增强子和远端Bcl11b增强子(图2-5)。重新启动motif分析显示TCF是缺失位点中富集最多的motif,这支持了TCF-1直接负责染色质可达性的观点(图2-6)。
这些数据共同表明,在胸腺发育的早期阶段,TCF-1是T细胞染色质形成模式所必需的。
关联染色质变化与基因表达(功能)
为了阐明染色质可及性的变化如何与基因表达动力学相关,我们使用RNA-seq对野生型和Tcf7/ T细胞的转录组进行了评估(图2-4,2-5)。然后,我们利用基因集富集分析,询问tcf -1依赖开放染色质区域附近基因表达的变化。在缺乏TCF-1的情况下,邻近区域(如Tcrb和Bcl11b)的基因在缺乏该转录因子的细胞中表达减少(图2-7)。相反,在Tcf7/ T细胞中,更容易获得的Adam19等基因也显示出转录增加(图2-7)。
综上所述,这些结果表明,当胸腺中缺乏TCF-1时,一些t样细胞继续发育,但它们不能建立正常T细胞开放染色质图谱和转录谱.
2.4 TCF-1 Binding Exerts a Coordinate Impact on theChromatin of Single T Cells
TCF-1结合对单个T细胞的染色质产生协同作用
为了探究哪些T细胞转录因子可能具有这样的特征,作者们首先利用了群体层面的染色质可达性图谱,并推断在给定的调控元件下,ATAC-seq信号的强度可以反映开放染色质群体中细胞的比例。
作者们比较了ATAC-seq在T谱系转录因子TCF-1、GATA3或RUNX1独特结合的基因组区域中染色质可及性的标准化强度(图2-8)。分析显示,与GATA3和RUNX1相比,TCF-1结合事件使染色质开放的平均水平最高,从而提出了TCF-1可能统一单个T细胞染色质可及性的观点(图2-8)。
虽然大体积T细胞的染色质可及性图在群体水平上测量开放调控元件的平均模式,但Tn5插入是否线性反映单个细胞的开放染色质比例仍不清楚。
为了解决这个问题,作者们使用单细胞ATAC-seq来检验假设。在这种方法中,使用可编程的微流体平台(Fluidigm)捕获并检测染色的单个细胞的生存能力。从单个T细胞到聚合scATAC-seq数据的折叠读操作严格复制了从50,000 T细胞生成的ATAC-seq所描述的可访问性度量一个具有代表性的基因组区域(图2-9),如Tcrb增强子,证实了体块测量和单细胞测量之间的强相关性(图2-10)
此外,来自单个T细胞的数据概括了大量ATAC-seq数据的几个特征,包括片段大小的周期性,对应于核小体的整数倍(图S3C)。作者们一起进行了3个独立的单细胞捕获,DP阶段的110个T细胞通过了不同的质量控制阈值,表明T细胞中存在高度可信的单细胞染色质可达性图(图2-11)。
我们的单细胞分析显示,与GATA3和RUNX1相比,tcf -1结合区域与单个T细胞之间的变异最小(图2-12)
作者们其他人共同开发的两种分析策略证实了TCF-1在调控元件上的富集,它们的可及性在单个T细胞中是保守的。
作为一种替代策略,作者们根据含有开放染色质的细胞比例对早期T细胞簇(cluster 9)中的T细胞特异性基因组区域进行排序,并评估它们是否与T细胞转录因子TCF-1、GATA3和RUNX1结合(图2-13)。相对于GATA3和RUNX1,大多数单细胞开放的顶部调控元件一致地结合在TCF-1上(图2-13)。推论,如果TCF-1在个体细胞间相似性最高的基因组区域确实发挥了创造可达性的作用,那么其缺失在体水平上对这些区域的可达性应该有更强的影响。事实上,单个T细胞中最相似的基因组区域,即,细胞开放比例最高时,TCF-1缺失的影响比较不相似的基因组区域更大(图2-13)。在没有TCF-1的情况下,TCF-1结合一致,在染色质可及性方面具有更强的效应大小,因此TCF motif被选择性富集在最相似的100个基因组区域内。此外,个体T细胞间最接近这些基因组区域且相似性最高的基因与T细胞生物学相关,包括T细胞相关基因如Bcl11b(图2-13)。
综上所述,用不同的分析策略研究大鼠和单细胞水平的染色质可及性图谱表明,TCF-1可以指示对单个T细胞染色质的协调影响。
2.5 TCF-1 Can Create De Novo Chromatin Accessibility in Fibroblasts
TCF-1可以在成纤维细胞中创造染色质的可达性
为了检验TCF-1是否可以创造新的开放染色质,作者们在非造血体细胞功能获得模型中评估了该转录因子。他们推断成纤维细胞可以作为一个理想的模型,因为成纤维细胞中的染色质状态不同于造血系统的细胞,并且T细胞特异性基因在这些体细胞中受到抑制,使他们能够更好地评估TCF-1在靶向浓缩染色质中的作用。为了评估TCF-1的基因组级别的结合,他们使用逆转录病毒转导系统在成纤维细胞中体外表达该转录因子,并执行TCF-1 ChIP-seq(图2-14:A)。为了定义基因组级别的tf -1结合事件,他们使用了不可再生发现率(IDR)方法阈值为2%(图2-14:B)。他们进一步利用微ccocal核酸酶(MNase)-seq在预诱导细胞中定位核糖体的位置。TCF-1异位表达导致成纤维细胞基因组中4万多个TCF-1结合事件,其中73%的事件与之前的核小体占位DNA共定位(图2-14:A和2-14:C)。
与未被转录因子结合的随机TCF位点相比,成纤维细胞中被TCF-1结合的TCF识别位点明显更接近核小体偶联,这让人想起在不表达PU.1的细胞中,PU.1结合事件被核小体屏蔽)(图2-14D)。综上所述,成纤维细胞中TCF-1的异位表达揭示了TCF-1广泛的结合在基因组区域,这些区域以前是核小体所占据的,包含着TCF共识结合位点.
为了测量广泛存在的TCF-1结合对沉默基因组位点的影响,他们绘制了空白或TCF-1载体ATAC-seq转导后染色质可及性的地图。通过差异富集分析,发现,在成纤维细胞中表达TCF-1后,原先被核小体占据的基因组区域有6882个获得了可达性,而1618个位点的可达性降低(图2-14:D,2-15-:E)。进一步进行了de novo motif分析,发现获得的位点中80%以上含有TCF motif,而丢失的位点则富含AP-1和RUNX家族motif(图2-15:F)。与motif存在一致的是,获得的位点中有80%也被TCF-1结合,而丢失的位点中仅有3%与TCF-1结合共域(图2-15:G),这表明TCF-1在失去染色质可及性的位点中发挥了间接作用。为了推断核糖体在TCF-1结合事件中的位置和占用情况,进一步将NucleoATAC算法应用到染色质可及性数据中,发现在TCF-1表达后,有7395个基因组区域的核糖体明显缺失(图2-15:F)。由TCF-1诱导的新生调节元件的一个例子包括T细胞受体alpha位点,在这个位点上,TCF-1与先前占据的核小体结合,导致染色质在多个基因组区域的可及性增强(图2.16:4H)。
综上所述,数据表明,tf -1可以与成千上万个先前的核小体占据的DNA结合,这种结合可以导致染色质的重新获得。
例如,Ccr7的启动子是在早期cluster 9中获得通路的调控元件之一,它与TCF-1结合,并在表达TCF-1的成纤维细胞中获得通路(图2-16:I)。
总而言之,TCF-1可以激活T细胞调控元件的一个子集,使之在远处的体细胞如成纤维细胞中开放。
2.6 TCF-1 Can Bind and Erase H3K27me3 and H3K9me3 Repressive Marks
TCF-1可以结合和清除H3K27me3和H3K9me3抑制标记
然而,目前尚不清楚这些依赖tcf -1的调控元件之前是否被抑制,还是在成纤维细胞中被允许的组蛋白修饰激活。
为了探究这个问题,作者利用5种组蛋白修饰的图谱检测了成纤维细胞中组蛋白修饰的现有模式,包括:H3K4me3,主要与启动子相关;H3K4me1和H3K27ac的平衡和活性启动子和增强子特征;高压标记为H3K9me3和H3K27me3。
TCF-1结合位点的相关性和主成分分析(PCA)表明,获得的位点共同定位优先共定位抑制含有H3K27me3或H3K9me3修饰的区域。(图2-17,图2-18)
为了对TCF-1结合前的染色质状态进行更定量的描述,他们开发了一种无监督的学习工作流程,将tf -1结合事件划分为11个簇,对应7种不同的色谱状态(图2-18:B、图2-19:C,图2-10:D)。虽然与活性和平衡增强子或启动子相关的TCF-1结合事件不足一半(40%),但16800(42%)发生在受抑制和异染色质基因组区域。TCF-1对染色质可及性的增强在这些被抑制的区域被强烈富集(图2-18:B)。
为了进一步评估TCF-1是否也具有清除抑制组蛋白修饰的能力,他们在表达TCF-1的细胞中除了标记H3K27ac外,还标记了H3K27ac和H3K9me3抑制标记。发现超过1400个重叠的从头打开染色质的tf -1结合事件与H3K27ac的增加和H3K27me3和/或H3K9me3在tf -1结合中心的抑制标记的丢失有关(图2-19:C,图2-20:D)。
综上所述,成纤维细胞中核小体映射、染色质可及性、转录因子结合和组蛋白修饰的整合表明,由于TCF-1能够与之前被抑制的染色质结构域结合,因此它在建立新生染色质可及性方面具有基础性作用。
2.7 T Cell-Restricted Genes Are Actively Transcribed afterTCF-1 Expression
TCF-1表达后,T细胞限制性基因被积极转录
为了评估TCF-1的异位表达及其在40000多个基因组区域的广泛结合是否与基因表达的变化有关,我们测量了成纤维细胞的转录输出(图2-21:A)。
TCF-1转导后,我们发现1477个基因上调,1295个基因下调(图2-21:B)。为了进一步评估这些上调和下调基因的身份,我们通过在DP T细胞和预诱导成纤维细胞中进行差异表达分析,生成了两个包含顶级“T细胞基因”和“成纤维细胞基因”的基因集。通过基因集富集分析,我们发现成纤维细胞基因集富集在下调的基因中,提示TCF-1抑制成纤维细胞基因表达程序(图2-21:A)。相反,T细胞基因集富集TCF-1在上调的基因中(图2-21:B)。富集分析的前沿包括T细胞承诺和发育所必需的基因,包括Bcl11b、Rorc和Cd247(图2-21:C)。
总之,数据表明,TCF-1可以启动成纤维细胞向T细胞的重编程。
检查是否TCF-1调节基因的成纤维细胞在T细胞转录的发展有任何关系,划定“thymocyte-specific基因”作为一个群体的基因,选择性表达至少一个T细胞发展阶段而不是使用ImmGen骨髓祖细胞表达数据(图2-22)。
发现TCF-1能够上调81个胸腺细胞特异性基因,这些基因与组织发育、细胞增殖和免疫系统过程有关(图2-22)。TCF-1上调的597个基因在多种细胞状态下表达(图2-22)。文献支持结果,众所周知,TCF-1在T细胞发育、外周T细胞和具有干细胞特性的细胞中反复出现.
他们利用RNA-seq数据,进一步评价了1477个TCF-1上调的基因在成纤维细胞造血祖细胞中的表达,以及幼稚CD4+和幼稚CD8+、效应子和记忆性CD8+ T细胞中的表达(图2-22和图2-23)。在进行无监督聚类后,我们发现753个基因通常在这些细胞状态之一中表达。其中,475个基因(63%),包括Ccr7、Il15ra和Icosl在T细胞程序中选择性表达(图2-22和图2-23)。
此外,成纤维细胞中TCF-1上调的42个基因在Tcf7/ DP T细胞中选择性下调,说明TCF-1对这些基因在多种细胞环境下的转录是必要且充分的(图2-24)。
综上所述,数据表明,TCF-1激活新生开放染色质区域,诱导成纤维细胞中的T细胞特异性基因表达程序
2.8 Genes Upregulated by TCF-1 Reside in Previously Repressed Chromatin Domains in Fibroblasts
由TCF-1上调的基因位于成纤维细胞中先前被抑制的染色质区域
作者对表达成纤维细胞的TCF-1的数据进行了两个观察:(1)TCF-1可以在之前被抑制的区域产生染色质可达性;(2)TCF-1可以诱导数千个基因的表达。为了将TCF-1结合事件的染色质状态与成纤维细胞转录输出的变化联系起来,我们计算了在不同染色质状态下,在TCF-1结合事件中5kb扩展区域的基因中,上调和下调基因的富集情况。发现,上调的TCF-1基因在染色质区域与抑制染色质标记的TCF-1结合事件中显著富集(图2-23).相反,TCF-1下调的基因多与启动子和H3K4me1高、H3K27ac被H3K9me3包围的三价态相关(图2-25)。与未改变染色质状态的基因相比,TCF-1结合事件导致H3K27ac增加和H3K27me3/H3K9me3修饰缺失的基因比例在统计学上显著。特别是,T细胞程序的基因在基因组区域内被强烈富集,这些基因组区域以前是被抑制的染色质区域或具有高核小体占用率的区域内。(图2-24)通常在成纤维细胞中被抑制的H3K27me3和H3K9me3覆盖并在TCF-1表达后被积极转录的T细胞基因包括Ccr7(细胞在胸腺内和外运输所需的受体)和Rorc (T细胞发育所必需的转录因子)(图2-25)。
因此,TCF-1可以通过访问抑制性染色质域并将这些区域转化为开放的转录活性位点,诱导T细胞基因在非造血细胞类型中表达。
三、讨论 discussion
3.1目前尚不清楚TCF-1控制T细胞命运的机制是少数基因的特异性转录调控,还是该蛋白在建立T细胞的全球表观遗传特性方面发挥更基本的作用.
这种TCF-1靶向被抑制染色质的能力可能归因于HMG蛋白向DNA引入强弯曲的能力.些结果揭示了TCF-1通过对T细胞表观遗传特性的全基因组编程来控制T细胞命运的机制。
3.2在数据中,无论是获得的位点还是丢失的位点,都被TCF-1结合和TCF motif富集,这表明转录因子在识别其跨基因组的结合位点方面发挥了直接作用.
3.3康拉德·沃丁顿提出了细胞分化的比喻,创造了“表观遗传景观”这个术语,并设想了一个细胞像球一样从山上滚下来。换一种说法,在单个细胞间高度保守的开放染色质事件(由单细胞ATAC-seq揭示)可能与该细胞类型的同一性有关,因为在这种情况下,如果没有TCF-1驱动的表观遗传事件,T细胞似乎无法有效发挥功能。尽管我们对转录因子结合的知识仍局限于ChIP-seq等批量检测,但数据显示,在具有TCF识别位点和TCF-1结合的基因组区域中,存在一种独特的模式,这表明转录因子在协调单个细胞染色质可及性方面的作用.
3.4这些发现,加上在T细胞发育过程中TCF-1的早期上调,以及该蛋白重新编程成纤维细胞基因表达谱的能力,可能将TCF-1描述为事实上的转录“先驱”.尽管如此,作者认为表观遗传复杂性和转录因子之间的组合要求表明,决定谱系的转录因子,如TCF-1,可能需要额外的事件来充分实施它们启动的细胞谱系程序。在这里,作者们发现TCF-1被赋予了一种靶向带有抑制标记的染色质区域的能力,并且通过这种方式,在其他发育环境中,TCF-1的靶向性比之前所描述的先锋因子更强,这些先锋因子常常被异染色质所阻碍。值得注意的是,包括先前研究的先锋因子在内,没有其他转录因子与基因组中可能存在的全部结合位点结合的报道。作者假设高阶染色质构象和表观遗传修饰(如DNA甲基化)可能阻碍TCF-1与其同源位点的全部结合。同样的,虽然成纤维细胞中超过1000个TCF-1结合事件消除了已有的抑制标记,但剩余的TCF-1结合事件并没有改变成纤维细胞的内源性染色质状态,说明这些调控序列需要合作伙伴的参与。
3.5方向总结:通过机器学习技术,从DNA序列和形状、组蛋白修饰、DNA甲基化以及发育和重编程过程中的三维基因组组织等方面描述转录因子参与的规则,可以确定TCF-1在阅读遗传密码时遵循的调控语法。总体而言,我们的整合数据强调了一种广泛的方式,即TCF-1通过全基因组表观遗传编程和诱导T细胞身份基因来启动T谱系计划。总体而言,作者整合数据强调了一种广泛的方式,即TCF-1通过全基因组表观遗传编程和诱导T细胞身份基因来启动T谱系计划。
四、方法
详细见原文:Lineage-Determining Transcription Factor TCF-1 Initiates the Epigenetic Identity of T Cells