scATAC:人类基因组的染色质可及性图谱
scATAC:人类基因组的染色质可及性图谱-1
scATAC:人类基因组的染色质可及性图谱-2
scATAC:人类基因组的染色质可及性图谱-3
scATAC:人类基因组的染色质可及性图谱-4
result5:Delineation of cell-type specificity of human cCREs
人类细胞类型特异性cCREs的描述
为了表征 cCRE 在胎儿和成人细胞类型中的细胞类型特异性,我们根据 222 种细胞类型的标准化可及性将 1,154,611 个 cCRE 组织成 150 个簇,称为顺式调节模块 (CRM)。 尽管几个 CRM 显示所有细胞类型的共享可访问性模式,但大多数 CRM 仅限于单个胎儿或成人细胞类型或反映共享细胞谱系的细胞类型组(图 5A)。
为了注释 CRM 的推定功能,我们应用了 GREAT GO富集分析 。 从广义上讲,在特定胎儿和成人细胞类型中显示出优先可及性的 CRM 富集了与细胞类型和生命阶段特定细胞过程相关的生物过程GO term(FDR <0.01)(图 5B 和 5C)。
为了识别这些 CRM 的序列特征,我们接下来测量了 150 个 CRM 中 1,565 个人类 TF 基序的富集,以揭示胎儿和成人人类细胞类型的推定主要调节因子。该分析揭示了胎儿和成人细胞和谱系特异性 TF motif的综合目录。例如,在成人 CD8+ T 细胞和自然杀伤 T 细胞中具有强可及性的模块通过 TBR、EOMES 和 TBX TF 家族基序的富集来区分(模块 8,p < 1e 84)(图 5B-5D),模块通过富集 EBF 家族 TF 基序(模块 13,p = 1e 27;模块 17,p = 1e 197)来区分 B 细胞中具有强可及性的模块,并且在成体肥大细胞中具有强可及性的模块的区别在于GATA 家族成员基序富集(模块 25,p = 1e 84)(图 5B-5D)。
此外,在所有已识别的细胞类型中具有最强可访问性的模块的特点是富集 SP1 motif(模块 1,p = 1e 9180),与 SP1 作为普遍表达的管家基因的调节因子的原始描述一致。除了这些特征明确的关联之外,我们还报告了以前未定义的 TF 与人类细胞类型的关联,这些关联在体内组织环境中难以研究:例如,ESRR 的motif(模块 92,p = 1e 357 ; 模块 93, p = 0.1) 和 FOX (模块 92, p = 1e 36; 模块 93, p = 1e 255) TF 家族分别更加富集胎儿 (模块 92) 和成人 (模块 93) 胃上皮细胞可及性模块(图 5A),FOS 和 JUN 家族的在胎儿和成人肾上腺皮质细胞可ji及的模块中富集(模块 135-138,p < 1e 10;图 5A)。
result6:Association of human cell types with complex traits and diseases
人类细胞类型与复杂性状的关联
接下来,我们试图使用我们的 120 万个细胞类型分辨率下的的 cCRE 来解释与复杂性状和多基因疾病表型相关的遗传变异。我们下载了 NHGRI-EBI GWAS 目录并保留了 1,123 个具有 10 个或更多显着 SNP 和 20,000 多个案例(占 8,219 个 GWAS 出版物的 14%)的功能强大的 GWAS。然后,我们使用超几何检验来测量从 222 种胎儿和成人细胞类型中识别的 cCRE 中性状相关变体的富集。发现 450 种性状/疾病的 GWAS 变异富含来自至少一种细胞类型的 cCRE(FDR <0.1%)。作为比较,EpiMap 是一个综合增强子目录,包含来自大量人体组织样本、原代细胞和离体细胞系的 833 个表观基因组图谱,它捕获了 457 项 GWAS 研究(FDR <0.1%)。对于本研究和 EpiMap 共有的 290 个性状,我们的数据在 74.8% 的病例(290 个中的 217 个)中捕获了最强的 GWAS 富集,并通过将复杂性状与特定细胞类型联系起来提供了改进的分辨率。此外,对于 160 个额外的性状,我们能够识别在之前的分析中未检测到的富集,突出了细胞类型解析的 cCREs 图的附加值。
上述 GWAS 富集分析仅考虑索引变体(即全基因组重要基因座中的 SNP)。然而,由于连锁不平衡,索引变体可能不代表特定的因果变体,并且大部分遗传性在于 SNP 的关联未达到全基因组显着性。因此,我们利用可公开获得的汇总统计数据策划了 240 项 GWAS 研究,并使用分层连锁不平衡评分回归 (LDSC) 检查了其相关 SNP 在胎儿和成人细胞类型中注释的 cCRE 中的富集,这是一种使用基因组从 GWAS 汇总统计中识别功能富集的方法- 来自所有 SNP 的广泛信息和显式建模连锁不平衡。该分析揭示了胎儿和成人细胞类型与人类特征和疾病表型之间共有 3,220 个显着(FDR <0.1)关联(图 6;表 S4)。
这些富集揭示了许多预期的细胞类型-疾病表型关系——例如,湿疹风险变异体在成人 T 淋巴细胞 cCREs 中强烈富集,心房颤动风险变异体在成人和胎儿心房和心室心肌细胞 cCREs 中强烈富集(FDR < 0.001),并且促甲状腺激素变体富含滤泡细胞 cCRE(图 6;表 S4)。除了预期的关系外,我们的分析还揭示了 GWAS 富集了目前尚未被批量 DNase-seq 或 ATAC-seq 数据注释的人类细胞类型。这些包括除了胎儿和成人成纤维细胞、周细胞和内皮细胞 cCREs (FDR <0.01) 外,成人血管平滑肌 cCREs (FDR <0.001) 中冠状动脉疾病变体的强富集,几种成人间质平滑肌细胞类型中的 COPD 变体(FDR <0.01)、成人脂肪细胞 cCREs 中与甘油三酯和 HDL 胆固醇水平相关的变体 (FDR <0.01),以及结肠上皮细胞 cCREs 中溃疡性结肠炎变体的名义富集 (p < 0.02)。有趣的是,我们检测到成人和胎儿成纤维细胞亚型中疾病和性状相关非编码变异的富集存在显着差异。这些包括显着富集与胎儿成纤维细胞中的出生体重相关的变异(FDR <0.01),但在成人成纤维细胞中没有(表 S4)。此外,我们检测到成人成纤维细胞亚型中疾病和性状变异的富集差异,除了在一组核心成纤维细胞 cCRE 上具有可比的染色质可及性外,每个亚型都显示出独特的调控元件(图 S7)。尽管所有成人成纤维细胞群都富集了与站立高度相关的变体至同等程度(FDR <0.001),但成人上皮成纤维细胞显示出与秃顶相关的变体的显着富集(FDR <0.001),并且只有成人心脏成纤维细胞显示出任何变体富集与心肌分形维数相关(FDR <0.1)(表 S4)。