Discussion:
Sci-ATAC-seq3 增加了越来越多的使用组合索引的单细胞方法,这是一种技术范式,与其他平台相比,其优势包括指数缩放和更大的范围,可以用来分析单细胞生物学的不同方面 (1-12) . 尽管文库的复杂性有限,而且 sci-protocol在pooling and washing步骤中会丢失材料,但此处和 (16) 中的结果说明了 sci-methods 的力量。 所有实验都是由少数人在非生产环境中进行的,但仍然产生了非常大的单细胞染色质可及性和基因表达数据集。
该领域的一个总体目标是开发人类基因调控的“atlas”,因为它在整个发育过程和整个人类生命周期中展开。 除了规模之外,我们的研究至少在三个方面与最近的其他单细胞图谱报告不同。 首先,我们试图在单个研究的背景下描绘尽可能多的组织,而不是专注于单个器官。 这既是为了创建一个广泛有用的参考图谱,也是为了能够对广泛分布的细胞类型进行跨组织比较。 例如,我们观察到内皮细胞而非成红细胞的组织特异性染色质可及性和基因表达。
其次,我们专注于人类发育过程中获得的组织。 这种选择的基本原理在 (16) 中有更详细的讨论,但包括我们的目标,即为发育遗传疾病的系统研究奠定基础,这些疾病占儿科疾病的比例不成比例 (89, 90)。 来自小鼠和人类额外发育时间点的类似数据的进一步积累,将系统地了解哺乳动物细胞类型的体内出现和分化。
第三,我们选择不仅研究单细胞基因表达,还研究染色质可及性,在相同的组织中,并在可能的情况下来自相同的样本 (16)。表现出细胞类型特异性染色质可及性的基因组区域通常对应于 DNA 调控元件,例如增强子,因此提供了机会,不仅可以了解特定细胞类型中基因组的“output”(我的理解是:output代表基因表达),还可以了解支持该output的调控程序。我们确定的所有可访问区域的总和跨越了人类基因组的 17%,这与最近来自胎儿组织的大量 DNase-seq 谱一致 (91)。这大约 100 万个元件中的大多数是可访问性cell type–specific or cell type–restricted,尽管一大组共享元件可能对应于looping anchors。进一步的研究(例如,基于进化保守性、大规模平行报告基因检测和/或 CRISPR 扰动的研究)对于验证这些候选调控元件以及它们与目标基因的基于 Cicero 的候选联系是必要的。
一个交互式网站有助于按组织、细胞类型、位点或motif(descartes.brotmanbaty.org) (15) 探索这些数据。 除了为该领域构建丰富且易于访问的资源(例如,为个别研究人员提供有关其基因、增强子或感兴趣的细胞类型的信息)之外,该数据集还使我们能够了解基因调控的更概括方面。
例如,利用我们拥有匹配的染色质可及性和跨越如此多组织和细胞类型的基因表达数据,我们可以研究 TF 的作用模式以及细胞类型或细胞类型特异性调控环境中的器官特异性差异 疾病的遗传性。 由于underlying方法相对较新,目前公共领域中缺乏单细胞染色质可访问性数据集。 随着更多此类数据的出现,我们预计将进一步与成年人 (92) 或其他物种 (13) 进行比较。
该数据集的广度和分辨率还提供了对特定发育过程的洞察。 POU2F1 是最早描述的哺乳动物 TF 之一 (93)。它被认为是唯一未在特定时间或空间模式中表达的已知 POU 家族成员,尽管是许多研究的主题,但迄今为止 POU2F1 的作用仍然难以捉摸 (42, 94)。尽管有人建议它参与看家基因调控或肿瘤发生,但癌细胞系的敲低没有显示出生长缺陷 (42)。
本研究提供的单细胞分辨率表明 POU2F1 在神经元细胞类型中的表达更高,其基序在神经元调节区域中特别丰富。因为我们在我们的profile windows中捕获了发育中的神经元,我们可以观察到这个基序在兴奋性神经元的发育群体中最为丰富,POU2F1 表达动态反映了这一点。 POU2F1 及其结合位点高度保守 (42),我们还观察到小鼠兴奋性神经元中的基序富集,这意味着该 TF 是兴奋性神经元细胞命运的保守诱导剂和维持剂。与此一致,POU2F1 缺乏是胚胎致死的 (95)。这个例子说明了在单细胞分辨率下结合染色质可及性和基因表达数据的力量。我们预计,随着对其他组织系统、阶段和细胞类型的更深入分析,还会出现更多这样的例子。
这些和其他下游分析使用基于我们的细胞类型注释的可及性数据stratifications。 尽管我们的分配似乎是合适的,因为它们通常在下游分析中概括了已知的生物学,但它们应被视为初步的,并且可能需要随着更多atlas和改进数据的可用而进行调整。 我们有意将我们的细胞类型注释保持得相当广泛,但数据中有更多的子结构可以通过子聚类进一步探索——例如,正如我们对血细胞和兴奋性神经元所展示的那样。 尽管由于几种组织的shallow profiling或aggressive clustering不足,我们无疑会遗漏许多细胞类型,但我们仍然能够为一些罕见的和以前可能未知的细胞类型推导出染色质可及性图谱和关键调节因子。
我们在此介绍的分析只是一个起点。 可以直接从这些数据中探索许多其他方面——例如,指定必须在相同细胞类型中共表达的 TFs 集,以便协同结合调控区域。 此外,这些数据可以直接用作机器学习模型的输入——例如,预测人类基因组中鉴定的所有疾病相关变异对所有细胞类型的染色质可及性的影响 (96)。 我们预见,单细胞方法的真正力量在于将我们在此介绍的描述性资源与机器学习和高通量扰动相结合,其长期目标是对人类发育和疾病中基因调控的预测性理解。
scATAC:人类胎儿的染色质开放细胞图谱(0)
scATAC:人类胎儿的染色质开放细胞图谱(1)
scATAC:人类胎儿的染色质开放细胞图谱(2)
scATAC:人类胎儿的染色质开放细胞图谱(3)
scATAC:人类胎儿的染色质开放细胞图谱(4)