人类基因组中丰富的遗传变异不是在蛋白质编码基因中发现的,而是在非蛋白质编码区域内发现的。鉴于只有1%的基因组编码蛋白质,这并不奇怪。直到最近,确定遗传变异对性状变异和疾病的影响的努力集中于编码区域。然而,全基因组关联研究(GWAS)的结果表明,性状和疾病相关变体通常是调节变体,例如在非编码区中发现的表达数量性状基因座(eQTL)。这些结果促使人们努力了解非编码,监管变异的功能作用。迄今为止的努力依赖于表征变体和基因表达之间的关联。然而,这个协会本身就是 不会揭示非编码变体影响基因表达的完整功能机制。因此,最近的努力开始表征许多分子表型,例如转录因子(TF)结合,组蛋白修饰和染色质状态,以确定调节变体影响基因表达的机制。
一期,四篇论文
在11月8日出版的“科学”杂志上,发表了三篇论文,阐述了非编码遗传变异对TF结合,组蛋白修饰和染色质状态(即活性与非活性增强子状态)的作用。第一项研究由日内瓦大学的Dermitzakis实验室完成。他们使用染色质免疫沉淀和测序(ChIP-Seq)分析了来自两个亲子三联体的淋巴母细胞系(LCL)中的三种TF,RNA聚合酶II(Pol II)和五种组蛋白修饰[1]。第二个是由最近搬到斯坦福的Pritchard实验室和芝加哥大学的吉拉德实验室完成的。他们确定了影响四种组蛋白修饰变异的遗传变异和十种不相关的约鲁巴LCL的Pol II占据[2]。第三项研究由斯坦福大学的斯奈德实验室完成。他们使用RNA-Seq和ChIP-Seq对来自不同群体的19种LCL中的四种组蛋白修饰和两种DNA结合因子的染色质状态变化的遗传变异进行了表征[3]。这项工作是该研究的第一作者Maya Kasowski最近发表的CEHG Evolgenome演讲的主题。最后,发表在11月28日出版的“自然”杂志上的第四项研究由加州大学圣地亚哥分校的玻璃实验室完成。他们使用ChIP-Seq描述了两种小鼠品系之间天然遗传变异对参与细胞分化的两种TF(PU.1和C /EBPα)结合的影响[4]。在这篇文章中,我将主要分析Pritchard Lab提供的工作,但我强烈建议阅读所有四篇论文,以了解表征非编码变异的挑战以及可用的方法。
Motivation
这四项研究旨在回答调节变异如何影响基因表达的一般问题。它们表征不同的分子表型,如组蛋白修饰和TF结合,以了解非编码变体的作用机制。Pritchard实验室的研究重点是四种组蛋白修饰(三种活性和一种抑制性:分别为H3K4me3,H3K4me1,H3K27ac和H3K27me3)和Pol II占据。
组蛋白修饰101
组蛋白修饰是指向包含核小体的组蛋白的尾部上的特定氨基酸添加化学基团如甲基或乙酰基。这些化学基团被称为组蛋白标记。它们可以提供广泛的功能,但通常它们与染色质区域的可及性相关。例如,组蛋白3(H3K4me3)的赖氨酸4的三甲基化与染色质可及性和基因活化增加有关。另一方面,启动子处抑制标记H3K27me3(组蛋白3的赖氨酸27的三甲基化)水平的增加与基因失活有关。
使用ChIP-Seq以高通量方式测量组蛋白标记水平。简而言之,靶向目标标记的抗体用于下调修饰的基因组区域。然后对这些免疫沉淀区域进行测序以确定哪些基因组区段被修饰以及在何种水平上。该过程通常需要大量的细胞(大约10 ^ 7)。因此,修饰水平在某种程度上是群体水平测量。对ChIP-Seq数据的分析通常涉及测试具有比预期偶然更多读数的基因组区域。这些区域的范围从200bp到1000bp或更多,被称为代表高于基因组背景的修饰水平的峰。像H3K27me3这样的抑制性标记倾向于具有宽峰区域,而像H3K4me3这样的激活标记可以具有更紧密的峰值。
由于修饰水平代表对细胞群的测量,并且组蛋白残基可具有多个修饰,因此基因组区域可显示多个标记的证据。这些标记在区域上的组合可以标记该区域的功能。例如,具有高水平的H3K27ac和高比率的H3K4me1与H3K4me3的区域可以标记活性增强子区域。到目前为止,这些标记在个体之间的变异与这种变异的遗传原因尚未被描述。此外,这些商标的因果影响仍然未知。他们是直接改变基因表达还是通过基因调控改变它们?因此,本研究的两个指导性问题是:
1.哪些遗传变异影响组蛋白修饰?
2.这些修饰是“基因调控的原因还是后果?”
组蛋白修饰的变异,一个真正的whodunit
作者首先寻求识别和表征影响组蛋白标记的遗传变异。他们生成了四个组蛋白标记的ChIP-Seq数据和来自十个不相关的约鲁巴个体的LCL中的Pol II,这些个体先前被基因分类为1000个基因组项目的一部分。对诸如eQTL研究等调节变体的类似研究需要大样本量来检测通常位于基因之外的调节变体的影响。与eQTL研究不同,组蛋白标记覆盖相当广泛的区域,通常包含因果调节变异。因此,作者可以使用较小的样本量,并仍然有信心询问因果调节SNP的影响。作者开发了一项统计检验,模拟个体之间的总阅读深度和个体内单倍型之间的等位基因失衡,以增加检测顺式QTL的能力(即影响组蛋白标记的变异和基因组附近的Pol II占据)。使用这种方法,他们确定了超过1200个不同的QTL,用于组蛋白标记和Pol II占用(FDR 20%)。
然后,作者分析这些组蛋白标记和Pol II QTL以确定这些变体与其他已知调节变体的重叠。假设是影响基因表达的调节变体将对不同的分子表型产生影响。因此,影响组蛋白标记和Pol II的变体应显示与已知调节变体(例如eQTL和DNase I灵敏度QTL(dsQTL))的显着重叠。DNase I灵敏度是染色质可及性的量度,具有更高的灵敏度,与更高的可及性相关。在之前的两项研究中,Pritchard实验室在大约75个Yoruban LCL样本中绘制了eQTL和dsQTL,我也建议阅读[5,6]。他们的分析揭示了dsQTL的低p值的富集,并且在较小程度上,当作为组蛋白标记和Pol II QTL测试时,eQTL被富集。此外,作者观察到dsQTL和eQTL的多种分子表型的协调变化。例如,对于更多DNase I敏感基因型,在dsQTL处观察到更高水平的三种组蛋白活性标记。在eQTLs,具有高表达基因型的个体的H3K4me3,H3K27ac和Pol II水平更高。这些结果表明,非编码调节变体影响多种分子表型,范围从染色质可及性和转录到组蛋白修饰。作者提供了强有力的证据来回应他们的第一个指导性问题,即非编码调控多态性与组蛋白标记和Pol II的变异相关。对于更多的DNase I敏感基因型,在dsQTL处观察到更高水平的三种组蛋白活性标记。在eQTLs,具有高表达基因型的个体的H3K4me3,H3K27ac和Pol II水平更高。这些结果表明,非编码调节变体影响多种分子表型,范围从染色质可及性和转录到组蛋白修饰。作者提供了强有力的证据来回应他们的第一个指导性问题,即非编码调控多态性与组蛋白标记和Pol II的变异相关。对于更多的DNase I敏感基因型,在dsQTL处观察到更高水平的三种组蛋白活性标记。在eQTLs,具有高表达基因型的个体的H3K4me3,H3K27ac和Pol II水平更高。这些结果表明,非编码调节变体影响多种分子表型,范围从染色质可及性和转录到组蛋白修饰。作者提供了强有力的证据来回应他们的第一个指导性问题,即非编码调控多态性与组蛋白标记和Pol II的变异相关。这些结果表明,非编码调节变体影响多种分子表型,范围从染色质可及性和转录到组蛋白修饰。作者提供了强有力的证据来回应他们的第一个指导性问题,即非编码调控多态性与组蛋白标记和Pol II的变异相关。这些结果表明,非编码调节变体影响多种分子表型,范围从染色质可及性和转录到组蛋白修饰。作者提供了强有力的证据来回应他们的第一个指导性问题,即非编码调控多态性与组蛋白标记和Pol II的变异相关。
TF和方向性问题
然后,作者转而解决这些商标的因果关系问题。为此,他们分析了TF结合位点的遗传变异。主要假设是改变TFBS的调节变体将修饰TF结合,这将导致附近的组蛋白标记和Pol II水平的变化。如果是这种情况,那么组蛋白标记的变化是TF结合位点强度的结果。另一方面,如果这些标记是因果关系,则不期望TF结合位点的多态性与这些标记的变化显示出强烈的相关性。
为了验证他们的假设,作者检查了~11.5K TF结合位点,其10个个体中至少有1个具有杂合子多态性。他们计算每个个体内多态性TF结合位点的两个等位基因之间的位置权重矩阵(PWM)得分的变化。然后,他们测试PWM的这种变化与附近杂合位点的ChIP-Seq读数的等位基因失衡之间的显着关联。该想法是,如果变体改善(或破坏)TF结合位点处的一个等位基因的TF结合,则相同等位基因附近的活性组蛋白标记将增加(或减少)。抑制性组蛋白标记(在本例中为H3K27me3)预计会产生相反的反应。实际上,当他们应用他们的测试时,他们发现活跃标记与抑制标记的负相关显着正相关。该结果支持由于TF结合和基因调节而改变组蛋白标记的假设。但是,这个结果并不排除其他可能性。组蛋白标记仍然可以在TF结合的建立中起到因果作用。换句话说,TF结合和组蛋白标记之间的关系不必是单向的。此外,有证据表明长的非编码RNA可能在组蛋白标记的建立和调节中起作用。
dsQTL和eQTL,染色质上的匹配
在他们的最终分析中,作者研究了同样是eQTL的dsQTL。由于这些变体与远端调节区域的基因表达和染色质可及性相关(距离相关TSS> 5kb),因此作者可以将调节区域指定给特定基因。同时存在dsQTL和eQTL的变体可能破坏远端调节区域。除了破坏调节区的可及性之外,该变体还扰乱受调节区影响的基因的表达。例如,变体可以降低增强子区域的染色质可及性,从而降低增强子的活性组蛋白标记水平。这种降低的增强子活性可导致附近基因的转录减少,并且同样降低该基因的活性标记水平。因此,指导该分析的假设是,影响远端调节区域的组蛋白标记的变体将对调节区域控制下的基因的组蛋白标记具有协同作用。作者检查了调控区域及其相关转录起始位点(TSS)中ChIP-Seq读数的等位基因失衡。实际上,作者观察到增加DNase I敏感性的变体在调节区和TSS的活性标记上具有显着的阳性等位基因不平衡。压制商标的情况恰恰相反。该结果再次强调了基因调控的复杂性和非编码变异的影响。调节变体不仅影响附近的不同分子表型,它们还可以指导远端基因座的变化。正如作者所说,远端区域之间组蛋白标记的这种协调变化可能反映了染色质的3D组织。影响远端调节区域和基因之间染色质环状相互作用的调节变体可能导致基因和调节区域的活性水平发生变化。
结论
本文提供了明确的证据,表明调节变异具有非常复杂的影响,同时影响多个区域的多种多样的分子表型。这种复杂性意味着调节变体作用于基因调控的潜在多种多样的机制。作者开始寻找这些机制之一的证据,即TF结合位点的扰动。他们首先表明组蛋白修饰的变异具有强烈的遗传基础,并且影响这些标记的多态性与已知的调节变体如eQTL重叠。然后,他们表明TF结合位点的多态性与组蛋白标记的变化相关,为这些标记与基因调控之间的关系提供了方向性的证据。在本质上,他们的结果表明,组蛋白修饰至少部分地通过TF结合进行。最后,他们发现调节变异可能对远端区域的分子表型产生影响。
我发现这篇论文以及前面提到的其他三篇文章都非常有趣。我认为这些论文表明我们对基因调控的理解仍然非常简单。随着ChIP-Seq和DNase-Seq等高通量分子检测的出现,我们可以开始询问调节变异对许多表型的复杂作用。在这样做时,提出有关方向性的问题是最主要的。一组给定的分子表型如何相关?这些表型是否代表基因组功能的原因或结果?基因调控的不同元素如何共同构建复杂的表型?