研究背景:
1.全基因组关联研究(GWAS)已经发现了数千种与人类疾病和表型性状相关的遗传变异,但这些遗传变异的分子机制一直没有解开,因为它们大多是位于非编码区,缺乏明确的功能注释。最近的研究表明,这些非编码变异常以顺式调节元件(cREs)的染色质标记为特征,从而导致一种假设,即相当一部分变异可能通过影响转录调节而起作用。为了验证这一假设,在人类基因组中定义cREs的靶基因至关重要。 因此,这些非编码的cREs是如何调节基因表达以及如何影响人类疾病的发生,就变成了一个非常有意思的研究方向。
2.由三维基因组的发展我们可知染色质纤维被折叠成一个高阶结构,在这种结构中,线性距离远的基因在空间结构上可能很近,因此,定位DNA之间的空间接触有可能揭示cREs的靶基因。
研究技术:
promoter capture Hi-C(pcHi-C)应用于27种人类组织or细胞
主要结果:
1.数据可重复性强,且与in situ Hi-C相比,能够捕获到相似地结构
2.由染色质相互作用图谱,根据先前描述的每个组织/细胞类型26中的H3K27ac信号为17295个启动子定义了70329个cREs,推测其调控的靶基因。每个启动子平均分配给25个cREs,45%的cREs分配给一个候选靶基因。
我们利用为相同组织/细胞类型收集的现有染色质数据集,评估cREs和目标启动子之间染色质状态的关系。如所料,与多个启动子广泛相互作用的片段通常出现在活性染色质区域,例如转录因子(TF)结合簇或超增强子区域。
此外,与ChromHMM模型的综合分析表明,活性启动子与含有活性增强子的DNA片段的相互作用比二价启动子频繁三倍(图1c)。然而,二价启动子与多克隆阻遏复合物相关的基因组区域的相互作用比活性启动子频繁5倍(图1c)。基于5个细胞系的50染色质状态ChromHMM模型的进一步分析也支持我们的结论(补充图6)。
3.以启动子为中心的染色质相互作用包含了相应细胞/组织类型中每个启动子的调控相互作用的信息。有三个证据可证明,如下
(1)我们将启动子处的染色质相互作用与GTEx consortium最近报道的14种匹配的组织类型(图2a和补充图7a-c)中的表达数量性状位点(eQTL)推断的调控关系进行了比较。对于每种组织和细胞类型,先前报告的eQTL在相应组织中鉴定的染色质相互作用中高度富集,富集程度高达5倍(卵巢)。
P–O pcHi-C染色质相互作用共检测到42627个eQTL关联,而在控制了线性基因组距离后,只有21362个eQTL关联是random chance。(PS:随机的?什么意思?)
(2)第二,cREs的活性与多个组织和细胞类型的指定候选靶基因表达之间存在显著的相关性,这与我们所理解的调控关系一致。具体而言,这些cREs中的H3K27ac水平与这些组织/细胞类型中的启动子H3K27ac水平(补充图8a)和预测目标基因的转录水平(补充图8b)显著相关。例如,POU3F3表达(图2b中的第二列)与远端cRE中的H3K27ac信号高度相关(图2b中的第一列)通过组织特异性染色质相互作用连接(图2b中的最后一列)。
(3)最后,通过pcHi-C相互作用连接捕获到的细胞/组织特异性cRE-启动子对与active cRE和同一细胞/组织类型的特异性基因显著相关。例如,海马特异性cRE-启动子-染色质相互作用与海马中的活性cREs(图2c)和高表达基因显著相关,尽管关系不大(补充图8c)。(我:就是说正是)
活性cREs中的细胞/组织特异性pcHi-C相互作用和高表达基因在其他细胞/组织类型中也有显著关联(图2d-f;见方法)。
综上所述,上述结果有力地表明,预测的cRE-启动子对可以揭示不同组织和细胞类型中cRE和靶基因之间的调节关系。
4.广泛的启动子-启动子(P-P)相互作用已在培养的哺乳动物细胞和一些原代组织中被报道。从27种不同的组织和细胞类型中获得的以启动子为中心的相互作用图谱使我们能够测试这是否是一种普遍现象。事实上,与之前的报告一致,在两个启动子之间发现了染色质相互作用的显著部分(9%,n=79989,Fisher精确检验P<2.2×10-16,补充图9a)。这些启动子的物理邻近性伴随着启动子-启动子之间在不同细胞/组织类型之间的染色质修饰状态的显著高相关性(图3a,b)。
5.以前,有几个启动子位点被证明是调节远端基因的增强子。为支持本研究中所鉴定的类似增功能的启动子,6127个eQTL与P-P相互作用对相匹配,而只有2722个eQTL是random chance(图3c,补充图9b-d和补充表13和14;见方法)。例如,在DACT3和AP2S1启动子区域之间发现强烈的染色质相互作用,DACT3的一个显著eQTLrs78730097(NC_)位于背外侧前额叶皮质的AP2S1启动子中(补充图10a)。值得注意的是,这个eQTL没有显示出与邻近下游基因(AP2S1)或邻近基因的任何有意义的遗传关联,仅与DACT3相关(补充图10b),表明AP2S1启动子区域具有调节远端DACT3启动子基因表达的作用。
为了验证类增强子功能的启动子,举一个例子,ARIH2OS核心启动子的缺失导致远端靶基因(FDR调节P=0.02)的显著下调,NCKIPSD通过染色质的长程相互作用(图3d)确定,对邻近基因没有显著或中度影响(补充图10e)。
重要的是,在转录起始位点附近的选定eQTL中,sgRNA诱导的突变对远端靶基因有显著的下调作用,但对H1-hESC中的邻近基因表达没有显著影响(图3e,补充图10f和补充表16;见方法)
我们的研究结果证明了人类基因组中存在着类似增强子功能的启动子,并进一步揭示了它们在远端基因调控中的功能。
6.以启动子为中心的染色质相互作用图谱使我们能够推断出含有疾病相关变异体序列的靶基因,并理解人类疾病的分子基础。我们的研究重点是从公开的GWAS数据42633个与疾病/性状相关的遗传变异,30%SNPs在cREs中被发现,这强调了cREs靶基因鉴定在疾病相关遗传变异的功能解释中的重要性。由于在大多数情况下,SNP功能是未知的,包括位于先前定义的cREs之外的SNP,我们能够为27325个SNP分配靶基因。平均而言,每个SNP被分配到每种细胞/组织类型中的1到3个候选靶基因之间,但需要注意的是,靶基因的精确数量可能会受到启动子捕获策略的适度分辨率和组织样本的异质性的影响(补充图11a和补充表17;见方法)。因此,与单独使用最近邻基因预测相比,上述图谱提供了更多的疾病相关基因预测(补充图11b,c中提供了帕金森病的一个例子),从我们以启动子为中心的染色质相互作用图谱中推断出的假定靶基因中只有8%被发现是最接近序列变体的基因(补充图11d)。
为了评估基于启动子中心染色质相互作用图谱的靶点预测的有效性,我们重点研究了7个GWAS变异,它们与人类淋巴母细胞系GM12878中先前注释的cREs和eQTLs重叠。我们使用CRISPR-Cas9基因组编辑工具在GM12878细胞中引入这些元素的缺失,并使用逆转录定量PCR(RT-qPCR)在突变细胞和对照细胞中检测预测目标基因的表达。有5个表达都下调。
7.许多疾病和性状可能存在相同的分子通路,那么这些共同的分子通路的识别有助于了解疾病的发病机制和开展治疗。为了揭示不同疾病和生理特征背后的共同分子通路,我们首先基于各自的GWAS associated SNP确定了这些疾病/特征共有的靶基因。我们将687个性状和疾病分为40组(图4b、补充图12a-c和补充表19;见方法)。
这种分组多亏了pcHi-C的靶基因的预测,因为基于GWAS SNP或者GWAS SNP临近基因来分组的话相似性不明显,研究表明,GWAS中靶基因的预测对于我们分析性状之间关联也有帮助。
为了进一步了解人类各种疾病中常见的分子通路,我们对每个簇内GWAS-SNPs的预测的靶基因进行了基因本体GO分析(补充表20;见方法)。GO分析表明,每个簇中(疾病和性状类型)存在潜在的共享的分子通路(图4e,补充图12e和补充表21),也存在特定性状之间的意外联系。例如,C39暴露了感染性疾病和自身免疫性疾病的易感性与卡铂和顺铂的化疗毒性风险之间的联系。为了支持这种联系,一个与卡铂和顺铂反应相关的假定靶基因是ABCF1,它参与炎症反应。尽管这些是推测,但文章中分析揭示了共同的分子途径可能为研究复杂性状和疾病表型的分子机制提供新的线索。
结论部分:
总之,我们已经在不同的人类细胞/组织类型中生成了以启动子为中心的染色质相互作用图谱。我们的分析涵盖了广泛的人类组织类型,为70000个推测的cREs和27000GWAS SNP变异提供了靶基因预测。这一资源使我们能够系统地了解在不同疾病和性状中失调的分子通路。在未来的研究中,通过比较我们的参考染色质相互作用图来分析疾病特异的染色质与临床样本的相互作用,可以大大提高对许多疾病和性状相关的遗传变异的功能解释。应当指出的是,目前的研究只调查了有限数量的人类组织和细胞类型,并为人类基因组中注释的一小部分假定cREs指定了靶基因。然而,这一资源为进一步了解人类疾病的发病机制和开发新的治疗策略奠定了基础。
summary
疾病的发生与多种因素有关,找根源一般都会与某些基因的表达异常有关,那么出现表达异常基因的因素一般是发生在调控区,浅显的说,也许是该基因的启动子序列出现突变,导致不能表达,也可能是发生了表观层面的变化。在上一层次可能会受到其他元件的调控,比如增强子等,那么增强子的调控的遗传也会引起基因表达的变化,总之一句话就是说我们目前发现的疾病相关的遗传变异大都发生在cREs,因此我们找到cREs调控的靶基因,再了解其具体牵扯到哪些通路中,引起了哪些的异常对于我们的疾病治疗有所帮助。
文章中提到eQTL,什么意思呢,GWAS分析出与某性状相关的SNP,但该SNP不一定就导致功能的变化,如果该SNP没有引起表达量的变化,可能不会影响疾病,eQTL是与单个基因表达量相关的DNA突变,文章中开始将pcHi-c和eQTL一起进行比较,两个互补充有助于深入理解高级染色质结构与基因表达调控的影响。(是这样吗 自己理解的 对eQTL还不太熟悉)
初读