A catalog of accessible elements in the human genome during development:
在发育过程中,人类基因组的染色质开放元件的分类:
总之,我们的 105 万个位点的主集跨越 532 Mb,或参考人类基因组的 17.1%(数据文件 S1)。这个广泛的可访问位点目录启用了几个额外的分析。
首先,我们使用 Cicero 生成共可及性和基因活性评分 (63),分别分析 54 种细胞类型中的每一种。由于其中一些分布在多个组织中,因此总共生成了 101 张Cicero maps。我们总共测试了 500 kb 内的 1.59 亿对不同的可访问位点。在 0.1 的可共同访问分数阈值 (63) 下,我们获得了 101 张map中 630 万个不同的可共同访问的位点对的目录,每个细胞类型平均约 139,000 对。该目录包括 140 万 (22%) 个远端启动子、480 万 (76%) 个远端和约 94,000 (1.5%) 个启动子-启动子候选交互(数据文件 S5 和 S6;descartes.brotmanbaty.org)(15 )。例如,正如在这个发育阶段所预期的那样,成红细胞而不是其他细胞类型在基因座控制区 (LCR) 与胎儿和成人之间表现出可共通性,但在胚胎 b 珠蛋白基因之间则没有(图 S11A)( 64)。第二个例子是 FOXF1 启动子(图 4F),在该启动子中,来自肺而非其他组织的内皮细胞表现出与附近远端元件的共同可及性(图 S11B)。
其次,人类常见疾病和性状的很大一部分遗传力分配到可接近的染色质,特别是在与所讨论的性状或疾病相关的组织或细胞类型中可特别接近的区域(65-67)。我们之前将不同人类表型的全基因组关联研究 (GWAS) 信号与染色质可及性的成年小鼠单细胞图谱相交,并发现尽管存在相当大的物种差异,但仍可发现许多预期的关系 (13)。
我们对这些数据重复了这样的分析,应用分区连锁不平衡评分回归 (LDSC) (67) 来检测来自英国生物银行 (UKBB) 的 34 种表型在我们 54 种胎儿细胞类型中的每一种的可及染色质内的人类遗传力的富集(图.5A 和表 S3)。在 54 种细胞类型中,45 种至少有一种表型显着富集,而 34 种表型中的 32 种至少富集一种细胞类型(基础代谢率和晒伤除外,后者与缺乏皮肤组织)。
例如,正如预期的那样,血细胞特征在血细胞类型、神经元细胞类型中的神经表型以及成肝细胞和肠上皮细胞中的高胆固醇中最大程度地富集。此外,2型糖尿病不仅富含胰岛内分泌细胞,还富含胰腺腺泡和导管细胞、成肝细胞和胃杯状细胞;更年期年龄最大程度地富含肾上腺皮质细胞(图 S11C)。由于在整个人类生命周期中都会生成类似的染色质可及性单细胞图谱,因此探索每种表型的这些富集在什么时间点最大将是很有趣的。
第三,我们试图评估这些数据在识别影响顺式染色质可及性的遗传变异方面的适用性。尽管我们生成了许多细胞和组织的数据,但它们是从相对有限的个体中收集的,排除了使用关联框架的可能性。相反,我们试图确定处于杂合位置的个体内部的等位基因失衡 (68)。
具体来说,我们测试了来自两个人的肝脏和大脑样本,聚合了来自每种细胞类型的所有细胞的读数,并测试了这些聚合测量中的等位基因失衡。总体而言,我们发现 586 个单核苷酸多态性 (SNP) 表现出显着的等位基因失衡 [20% 错误发现率 (FDR)](表 S4 和 S5)。一般来说,识别出的重要位点的数量与来自该细胞类型的读数数量相关(图 S12、A 和 B),因此,检测细胞类型等位基因不平衡的能力存在很大差异(图 S12 ,C 到 F)。
在两个个体中都是杂合的 SNP 中,一个个体中显着不平衡的位点在另一个个体相同组织中的显着不平衡中大量富集(大脑随机的 49 倍,超几何测试 P = 1.5 × 10-36 ; 肝脏的随机性高 59 倍,超几何检验 P = 2.3 × 10−60),尽管同一个体的肝脏和大脑之间的共享程度更高(一个个体的随机性高 69 倍,超几何检验 P = 1.2 × 10−77;78 倍富集,超几何测试 P = 5.7 × 10−44(其他个体)。
尽管没有显着富集(P = 0.059),但在国家人类基因组研究所 - 欧洲生物信息学研究所(NHGRI-EBI)GWAS 目录(表 S6)中,25 个在至少一种细胞类型中具有等位基因失衡的 SNP 先前与复杂性状相关。 69)。
例如,rs61851769 显示一个肝脏样本中成红细胞和成肝细胞的等位基因失衡,并且之前与平均红细胞血红蛋白相关(图 5B)(69、70)。 SNP 破坏了 TAL1 结合位点,位于 SLC30A1 的上游,SLC30A1 是一种与红细胞生成有关的基因 (71)。
与这些注释的成红细胞特异性性质一致,我们认为肝母细胞信号可能来自污染的成红细胞,因为在基于峰值模块的双峰过滤后,肝母细胞的可及性丢失了。
另一个例子是 rs362649,它在一个人的兴奋性神经元中很重要,以前与小脑 vermal 小叶 VIII 到 X (72) 的体积有关,并且位于 RELN 的内含子内,在神经元迁移中起作用(图 5B) ) (73)。这些分析有很多注意事项,包括不同细胞类型的功率差异很大。尽管如此,这些结果说明了如何利用单细胞染色质可及性数据来识别具有细胞类型分辨率的功能性非编码遗传变异。
第四,类似于根据跨位点共享的可访问性模式对单元进行分组(图 3A),我们可以通过跨单元的共享可访问性对位点进行分组(74、75)。为了降低此任务的计算复杂性,我们删除了 <400 碱基对 (bp) 宽度的位点,然后计算了“位点的 UMAP”,将 447,879 个区域分为 15 个簇(图 5,C 和 D)。应用上述线性回归和从头基序搜索策略,这 15 个簇中的大多数都富含我们早期分析确定的关键 TF 调节器(图 5E、图 S13A 和数据文件 S7)。
相应地,当我们确定“差异细胞”(类似于在单细胞数据的常规聚类中确定差异基因或峰值)时,我们发现与基序富集相匹配的谱系年龄的细胞定义了大多数这些簇(图 S13B)。因此,这些簇中的大多数代表在某些细胞类型或细胞类型组中特别可访问的位点,因此链接到定义细胞类型的 TF。从头主题搜索包括几个先驱因素,这意味着受这些 TF 约束的站点更有可能同时访问。
然而,一些位点集群并没有以反映特定谱系的模式丰富。 例如,簇 11 包含 10,983 个或 2.5% 的位点,显然对应于通常可访问的启动子:其位点在许多细胞中均可访问(图 5D 和图 S13C); 75% 位于 TSS 的 1 kb 范围内(图 5F); 并且它们更广泛、CpG 丰富且保守(图 S13D)。 此外,该簇强烈富含启动子中常见的基序——例如各种 SP 因子、KLF 因子、NRF1 和 ZFX(图 S13A)——并且顶部鉴定的 de novo 基序对应于 CCAAT 启动子元件(图 2)。 5E)。 特别是,该簇富含看家基因启动子 [1.9 倍富集,超几何测试 P = 6.5 × 10–244; 由 (76) 定义的 3006 个内务 TSS 中有 80% 在这个集群中]。
另一种情况是集群 1,其 41,128 个位点不像启动子的站点那样普遍可访问(图 5D),但与其他集群相比,细胞类型特异性较低(图 S13B)。 这些站点还具有更高的 CpG 含量,并且与其他非启动子集群相比,范围更广且更接近 TSS(图 5F 和图 S13D)。 尽管这可能反映了包含一些启动子的一组位点,但启动子 TF 的基序在簇 1 中耗尽(数据文件 S7)。 它唯一显着丰富的基序是 CTCF(图 5E 和图 S13A)。 这表明这些可共同访问的位点对应于 TAD(拓扑关联域)边界和循环锚点,已知它们结合 CTCF 并且在很大程度上但并非完全在细胞类型之间保持不变
为了评估这一假设,我们从 ENCODE 中获得了 CTCF 结合峰位置,如染色质免疫沉淀测序 (ChIP-seq) 所确定,以及来自 GM12878 (78) 中 Hi-C 数据的环锚位置,并计算了重叠在循环锚点内与循环锚点外具有 CTCF 结合峰的每个位点簇(图 5G)。大多数集群显示出有限的重叠。第一个例外是簇 11(启动子;10% 与非环峰重叠),这与 20% 的 CTCF 位点落在启动子中一致 (79)。第二个例外是富含 CTCF 的簇 1(与循环峰重叠 15%,如果来自所有分析细胞类型的 Hi-C 和 ChIP-seq 数据可用,这个数字可能会增加)。这也是唯一一个与循环重叠比非循环 CTCF 结合峰更大的簇。总之,分析许多组织的染色质可及性不仅揭示了细胞类型,还揭示了一组可共同接近的调控元件——主要是谱系特异性集合,还有启动子和循环区域。
第五,我们将我们的位点主列表与人类基因组中正交注释的功能调节区域和其他物种的可访问区域进行了比较。在人类加速区域 (80) 中,66% 与我们的峰值之一重叠,75% 的人类 VISTA 增强剂 (81) 也是如此。非重叠 VISTA 增强子因在转基因小鼠测定中缺乏表达而略微富集(1.2 倍;超几何测试 P = 6.9 × 10–8)。我们分配给视觉、神经元和循环类别(图 5C)的峰因与人类 VISTA 增强子和加速区域的重叠而富集,而狭窄的、很少接近的峰被耗尽(图 S14、A 和 B)。
我们还将我们的位点主列表与通过分析 8 周龄小鼠的 13 种组织中染色质可及性产生的峰值集进行了比较 (13)。在提升到人类基因组的这些小鼠峰值的 23% 中,60% (61,396) 与人类峰值重叠。重叠的人类峰显着富集与神经元或髓鞘形成细胞类型、循环锚和启动子相关的峰,但没有其他细胞类型(如免疫或造血);狭窄的稀有峰已耗尽(depleted),胎盘峰也已耗尽(胎盘未在小鼠图集中进行分析)(图 S14C)。结果与以下可能性一致,即某些大类细胞类型(例如神经元细胞)的调节位点可能在小鼠和人类之间经历的进化周转少于其他细胞类型(例如免疫细胞)(17、82)。