scATAC:人类基因组的染色质可及性图谱
scATAC:人类基因组的染色质可及性图谱-1
scATAC:人类基因组的染色质可及性图谱-2
results3:
An atlas of cCREs in adult human cell types
成年人类的细胞类型cCRES图谱
为了识别 111 种细胞类型中的每一种中的可接近染色质区域,我们汇总了来自每个细胞簇的所有细胞核的染色质可接近性概况,并应用了针对单细胞数据优化的峰值调用程序。然后,我们合并了这些可访问的染色质区域,以获得 890,130 个non-overlapping cCRE 的列表(图 2A)。
这些 cCRE 涵盖了 ENCODE 联盟发布的 cCRE 注册表中 58.9% 的元件,还包括 420,152 个以前未注释的元素。为了对这些 cCRE 进行基准测试(benchmark),我们接下来比较了在当前研究中由批量 DNase-seq 分析的生物样本和由 sci-ATAC-seq 识别的细胞类型之间的染色质可及性概况。总的来说,sci-ATAC-seq 细胞类型比bulk tissue或永生化细胞系生物样品更接近原代细胞类型生物样品,并且由 sci-ATAC-seq 定义的具有较高组织丰度的流行细胞类型与bulk tissue更相似,与DNase-seq 生物样本相比,具有更多稀有细胞类型。在当前研究中描述的 111 种细胞类型中,44 种(40%)与 ENCODE 联盟描述的任何大量生物样本没有显示出统计学上显着的相关性。这些细胞类型中有许多是罕见的:它们的最大组织丰度中位数仅为 3.2%,其中 36 个(81.8%)占任何组织中所有细胞的不到 10%。总之,这些研究结果表明,我们的数据集将以前代表性不足的 cCRE 从体内人类细胞类型贡献到现有目录中,特别是来自bulk tissue中丰度低的细胞类型。
为了评估这些 cCRE 的潜在功能,我们接下来将它们与转基因报告基因验证的哺乳动物增强子目录进行比较,发现经过验证的组织特异性增强子在占很大比例的细胞类型中,并且在对应组织中鉴定出的细胞核表现出更高的染色质可及性 (图 2B)。
例如,与其他细胞类型相比,心脏中经过验证的增强子在心房心肌细胞(Z 评分:1.41)和心室心肌细胞(Z 评分:1.43)中显示出更高的平均染色质可及性(图 2B),这表明细胞类型特异性之间存在良好的相关性染色质可及性和组织特异性增强子活性。我们进一步发现,来自 49 种成人组织类型(GTEx Consortium,2020)的表达数量性状基因座 (eQTL) 在流行的细胞类型中最常见,例如内皮细胞和平滑肌细胞。此外,来自同质组织(如肝脏和甲状腺)的 eQTL 在相应的细胞类型中显示出最强的可及性,这些细胞类型包含组织中鉴定的大部分细胞核。这些结果表明, bulk tissue eQTL 最能代表与丰富细胞类型和同质组织中的基因表达相关的序列变异,并且对于同质组织中的稀有细胞类型或异质组织中的独特细胞类型可能不太具有代表性。
接下来,我们根据到最近的 TSS 的距离对每个 cCRE 进行分类,如图 2A 所示。当前目录中的大多数 (80.94%) cCRE 与带注释的 TSS 相距超过 2,000 bp。直接位于 TSS 上方或启动子区域附近的 cCRE 显示出更高水平的序列保守性和更高的染色质可及性(图 2C 和 2D)。
相比之下,基因远端 cCRE 的可访问性较低,并且相对于其可访问性显示出更大的差异(图 2D),表明存在高度可访问的启动子近端 cCRE 的共享程序以及跨细胞类型和物种的基因远端 cCRE 的可变程序。为了进一步剖析细胞类型特异性染色质特征和调控程序,我们应用基于熵的策略揭示了 435,142 个 cCRE,这些 cCRE 在一种或几种细胞类型中表现出受限的可及性(图 2E)。
接下来,我们对细胞类型受限的 cCRE 应用了 GREAT GO富集分析和基序富集分析,以揭示每种细胞类型的推定生物学过程和 TF,这在很大程度上与预期的细胞类型特异性功能相关( [FDR] <0.01) .例如,仅限于肝细胞的 cCRE 产生了生物过程GO Term,例如类固醇代谢过程(图 2F),
并且富含肝细胞核因子 TF 家族成员 HNF1A/B、HNF4A/G 和 ONECUT1/2 的结合位点(图 2G) 。