scATAC:人类基因组的染色质可及性图谱
scATAC:人类基因组的染色质可及性图谱-1
results1
Single-cell chromatin accessibility analysis of adult human primary tissues
成人原代组织的单细胞染色质可及性分析
为了在成人人体中生成 cCRE 的细胞图谱,我们对从死后成人供体的 30 个不同解剖部位收集的原始组织样本进行了 sci-ATAC-seq。选择组织样本来调查广泛的不同的人体器官系统在它们的核成分和对机械解离的敏感性方面,构成了技术挑战。因此,我们针对不同组织类型优化了核分离方法和缓冲条件(表 S1;STAR 方法)。随后,我们使用半自动化工作流程 (Hocker et al., 2021; Preissl et al., 2018) 生成了 sci-ATAC-seq 数据集,并将生成的文库测序到平均每个细胞核 6,464 个原始序列读数,median read duplication rate为44.88%(表 S2)。在过滤掉较低质量的细胞核和潜在的双细胞后,我们最终获得了 615,998 个细胞核的高质量开放染色质谱,每个细胞核的中位数为 2,822 个unique open chromatin fragments per nucleus,平均转录起始位点 (TSS) 富集分数为 12.8 (±3.2)每个核。
分析大型单细胞染色质可访问性数据集一直具有挑战性。 在 SnapATAC (Fang et al., 2021) 的最新开发中,我们进一步提高了其可处理数百万个细胞的可扩展性。 使用该算法,我们首先确定了 30 个主要细胞群(图 1B),其中 22 个(73%)在第二轮聚类分析中发现由多个亚群组成(方法 S1;STAR 方法)。 总之,我们发现了总共 111 个不同的细胞簇(图 1B-1E)。
results2:
Annotation of major and sub-classes of human cell types
人类细胞类型的主要和亚类的注释
为了注释产生的细胞簇,我们首先从 PanglaoDB 标记基因数据库 (Franze ́ n et al., 2019) 中挑选出一组marker基因,这些基因对应于预期的人类细胞类型。我们利用启动子处的染色质可及性作为基因活性的代表,并计算 111 个簇中每个簇的细胞类型富集分数以创建初始细胞簇注释(方法 S1;STAR 方法)。我们接下来基于对marker基因可及性的重点考虑(方法 S1)手动审查了这些分配。总而言之,我们用细胞类型标签注释了 30 个主要细胞群和所有 111 个不同的簇(图 1E;表 S3)。例如,在胃肠道上皮细胞的主要细胞群中,更高分辨率的亚聚类和注释显示了三个结肠上皮细胞簇,一个来自小肠的肠上皮细胞簇,两个来自结肠和小肠的杯状细胞簇 ,以及三个具有不同染色质可及性特征的稀有种群,包括enterochromaffin cells(占总细胞核的 0.060%)、tuft cells(占总细胞核的 0.050%)和Paneth cells(占总细胞核的 0.045%)(图 1B 和 1C)。
令人鼓舞的是,在大多数组织样本中检测到的几种流行细胞类型,如内皮细胞和骨髓细胞,是基于细胞类型而不是起源组织或个体组织的(图 1E)。 另一方面,组织驻留成纤维细胞聚集成七种亚型,每种亚型具有不同的起源组织(图1E)。 值得注意的是,111 种细胞类型中的大多数都表现出高组织特异性。 例如,滤泡细胞、肺细胞和肝细胞等高度特化的细胞类型仅限于一种组织类型,这反映了它们的组织特异性功能(图 1E)。 最后,我们观察到我们通过 sci-ATAC-seq 鉴定的细胞类型与通过相应组织的单细胞 RNA 测序 (RNA-seq) 实验鉴定的细胞类型高度一致(数据 S1)。