文章链接:https://pubmed.ncbi.nlm.nih.gov/32637041/
期刊及影响因子:Computational and Structural Biotechnology Journal 2020年IF: 7.271
目录
摘要
介绍
单细胞ATAC测序技术
数据预处理
- 测序reads的预处理
- 质量控制
- Cell-by-feature矩阵的形成
- 批量校正和数据集成
- 数据转换
- 降维、可视化和聚类
下游分析及进一步生成假设
- 细胞鉴定的注释
- 染色质可及性动态研究
- 基于TF基序的假设生成
- 基于基因的假设生成
- 基于增强子的假设生成
- 与疾病相关的遗传变异的假说产生
整合单细胞转录组数据的分析
结论与展望
摘要
大多数与人类复杂性状相关的遗传变异位于非编码基因组区域。因此,了解基因型-表型轴需要一个功能性非编码基因组元件的全面目录,其中大多数涉及基因表达的表观遗传调控。开放染色质区域的全基因组图谱可以通过顺式和反式调节元件与性状相关序列变体的连接,促进顺式和反式调节元件的功能分析。目前,利用高通量测序(ATAC-seq)分析转座酶可及染色质被认为是全基因组分析染色质可及性的最易获得和最具成本效益的策略。单细胞ATAC-seq(scATAC-seq)技术也被开发出来,用于研究含有异质细胞群的组织样本中细胞类型特异性染色质的可及性。然而,由于scATAC-seq数据本身的高噪声和稀疏性,很难准确提取生物信号并设计有效的生物学假设。为了克服scATAC seq数据分析中的这些限制,在过去几年中开发了新的方法和软件工具。然而,对于scATAC seq数据分析的最佳实践,目前还没有达成共识。在这篇综述中,我们讨论了scATAC-seq技术和数据分析方法,从预处理到下游分析,以及涉及该方法应用的最新已发表研究列表。我们期望本综述将为使用适当的软件工具和数据库成功生成数据和分析方法提供指导,以研究单细胞分辨率下染色质的可及性。
介绍
采用高通量测序 (ATAC-seq) 对转座酶可及染色质进行测定旨在识别基因组中的开放染色质区域[1]。由于使用了高活性的 Tn5 转座酶,它同时标记和片段化开放染色质区域中的 DNA 序列,与其他现有方法相比,ATAC-seq 需要更短的样品制备时间和更少的细胞数量来进行高质量的染色质可及性分析[1]。随着单细胞生物学的出现和各种基于测序的组学技术的应用,由于单细胞ATAC测序(scATAC-seq)的发展,单细胞分辨率下染色质可及性的研究成为可能。然而,scATAC-seq 数据的计算分析仍然具有挑战性。此外,如果对 scATAC-seq 数据的理解不充分,可访问基因组区域内的广泛潜在功能元素会增加解释 scATAC-seq 数据的复杂性。最近,已经开发了用于 scATAC-seq 数据分析的计算算法和软件工具。然而,必须仔细选择数据分析流程每个步骤的算法方法和参数,以便将染色质可及性信息可靠地转化为新的生物学假设。
在这篇综述中,我们旨在详细阐述 scATAC-seq 数据分析的整体工作流程(图1) 从数据预处理到各种下游分析,包括与其他类型的遗传学和基因组学数据的整合。来自 scATAC-seq 的测序读取数据的分析需要进行初始数据预处理,这与其他下一代测序数据的处理相似[2]。序列文件使用广泛用于序列信息质量控制、读取映射到参考基因组以及识别可能指示开放染色质区域的读取峰的软件工具进行处理[3]、[4]。细胞特征矩阵的生成对于 scATAC-seq 数据分析至关重要,这得益于可用于定义基因组特征的各种选项[5]。然后将预处理的数据用于下游分析,以阐明顺式调节元件(如启动子和增强子)和反式调节元件(如转录因子 (TF))之间的网络。还可以使用 scATAC-seq 数据分析基因活性和对遗传变异的可及性[6]。此外,scATAC-seq 可以与单细胞 RNA 测序 (scRNA-seq) 数据[7]和其他组学数据集成,用于多组学研究。
图1 典型单细胞 ATAC 测序分析工作流程的示意图
单细胞ATAC测序技术
在批量 ATAC-seq 技术发展的两年内,引入了两种不同的单细胞适应策略:分裂池组合细胞索引,如 sci-ATAC-seq [8]和微流体方法,如使用集成流体电路 (IFC) [[9]]
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7327298/#b0045) (图 2)。在 sci-ATAC-seq 中,裂解细胞的细胞核被放置在带有独特条形码转座酶的 96 孔板中,并在使用荧光激活细胞分选仪 (FACS) 分配到第二个 96 孔板之前重新汇集在一起。第二个条形码是在扩增过程中引入的。通过识别两个条形码的独特组合,sci-ATAC 可以对大约 1500 个细胞进行测序,中位读数为 2500,碰撞率约为 11%。相比之下,IFC scATAC-seq 利用 Fluidigm C1 设备捕获单个细胞并在 IFC 上执行转座和 PCR。虽然这种方法每个细胞可以获得超过 70,000 个读数,但最多只能并行处理 96 个细胞。另一种使用 10x Genomics Chromium 设备的基于微流体的 scATAC-seq 最近越来越受欢迎。[6]。GEM 的可扩展性和高通量与称为 Cell Ranger ATAC 的直观软件相结合,允许对大量细胞进行 scATAC-seq 研究。
图2 ATAC 测序文库生成的单细胞适应的两种主要策略的示意图总结:(a)拆分池细胞索引和(b)基于微流体,以及(c)它们的修改方法
自从 ATAC-seq 技术与细胞索引和微流体技术的初始单细胞适应以来,已经对其进行了各种修改和改进。蛋白质索引的 scATAC-seq (Pi-ATAC) [10]与 DNA 转座并行分析蛋白质表位,以量化同一单个细胞的蛋白质表达和染色质可及性。小分子抑制剂 Pitstop2 (scip-ATAC-seq) [11]提高了转座酶进入细胞核的效率,从而提高了文库的复杂性和分辨率。使用微流控设备的转录索引 ATAC-seq (T-ATAC-seq) [12]允许使用 ATAC-seq 对 T 细胞受体编码基因进行测序。Perturb-ATAC [13]在转座后添加 CRISPR 单向导 RNA (sgRNA) 并对 sgRNA 和 ATAC DNA 进行测序,以研究调节染色质可及性的因素之间的关系。基于板的 scATAC-seq 有助于提高文库的复杂性,线粒体 DNA 含量较低,峰中读取的比例较高 (FRiP),以及批量 Tn5 标记和单核分选[14]。通过将细胞索引与微流体相结合,液滴微流体 scATAC-seq 与细胞索引 (dsciATAC-seq) [15]保持了基于微流体的 scATAC-seq 的读取深度,同时增加了细胞吞吐量。
Nano-well ATAC-seq (μATAC-seq) 采用 ICELL8 平台提供高通量和低文库制备成本的单细胞测序[16]。然而,在选择 scATAC-seq 技术之前,重要的是要考虑实验设备的可用性、与分析软件的兼容性、所需的读取深度和细胞吞吐量以及研究的总体目的。
数据预处理
在通过下游分析生成生物学假设之前,scATAC-seq 数据必须经过预处理步骤才能准确解释。scATAC-seq 数据的预处理从序列文件的多路分解和低质量细胞的去除开始。必须仔细选择用于细胞特征矩阵的基因组区域、数据转换方法、降维 (DR) 方法和用于注释细胞身份的聚类方法。此外,如有必要,必须移除批次效应。由于数据分析中没有灵丹妙药,因此需要将多种方法与互补算法进行比较,以便从给定数据集中获得最佳结果。在表格1,我们总结了 13 个可用于 scATAC-seq 数据分析的软件包:ChromVAR [17]、SCRAT [18]、scABC [19]、Cicero [20]、Scasat [21]、cisTopic [22]、snapATAC [23]、epiScanpy [24]、Destin [25]、SCALE [26]、scATAC-pro [27]、Signac [7]和 ArchR [28]。尽管下游分析的能力各不相同,但它们都包括独特的预处理步骤。最近,许多这些工具也根据在准确识别具有聚类结果的细胞类型方面的表现进行了评估[5]。
表格1 scATAC-seq 分析软件包总结(连接处使用的工具在括号中表示)
测序读数的预处理
如果多个样本通过多路复用在单个反应中进行索引和测序,则需要通过软件包(例如 Illumina 的 bcl2fastq)将它们基于索引适配器序列进行解复用。然后通过适配器修剪处理解复用的样本文件,其中适配器和引物序列由 Bowtie2 [3]或 Trimmomatic [29]修剪掉。然后使用 Bowtie2 [3]或 BWA [[30]]将修剪后的读数与相同物种的基因组与准备好的样本进行比对,并使用 Samtools[31]进行排序。
质量控制
在处理完测序读取数据后,必须过滤掉与低质量细胞或双联体相对应的条形码。通常,大多数单细胞测序技术的质量控制 (QC) 标准基于读取计数(计数深度)和每个条形码的特征计数[32]。计数深度低或计数深度过高的条形码分别被认为是低质量细胞或双峰。这同样可以应用于特征计数。然而,利用 scATAC-seq 数据的独特特征可能会导致更充分的 QC。例如,峰中读取的分数 (FRiP)、启动子区域中的读取比率、黑名单站点中的读取比率或转录起始位点的富集 (TSS) 通常用于条形码选择[9]、[23]、[28]。不显示高质量 ATAC-seq 数据特有的核小体条带模式的条形码也被排除在外[8]、[33]。除了条形码之外,位于黑名单区域或看家基因中的特征(例如峰)也可以被过滤掉[23]。重要的是要记住,没有适用于所有样品的绝对 QC 标准。因此,必须根据样品的整体结构、异质性、可能存在的细胞类型、批次或测序平台等样品的特征仔细选择 QC 标准的组合。
细胞特征矩阵形成
选择通过 QC 的细胞生成细胞特征矩阵用于下游分析。使数据矩阵多样化的一个主要因素是由原始峰读数的基因组区域和使用调节元件对定义区域的注释来定义的。虽然大多数管道采用单一的组合来定义和注释基因组区域,但有些管道采用各种适合的矩阵来进行下游分析的不同目的。很大程度上,基因组区域的定义可以通过使用样本特定信息进行分类,并且特征注释可以随着感兴趣的调控元素而变化。
样本特定信息的使用包括利用来自公共数据的批量 ATAC-seq 峰或分析来自 scATAC-seq 数据的聚合或合并峰[17]、[19]、[20]、[21]、[22]、[ 34]。可以使用来自整个样本或从初始临时聚类结果中获得的每个簇(代表不同的细胞类型)的细胞进行单细胞聚合[23]。在大多数情况下,MACS2 [4]用于峰识别。基因组区域的另一个定义是固定大小的基因组箱或基因组窗口以及基于区域序列读数的相对丰度的分数[23]、 [33]。
通过固定大小的峰或箱/窗口定义基因组区域后,使用调节元素(例如 TF 基序和 TSS)生成细胞特征矩阵。由于 TF 结合的基序和 k-mers 是特定于细胞类型的,因此基于信息的细胞类型注释包含在一些数据分析管道中[17]、[18]、[35]。基因组区域使用来自公共数据库的已知 TF 基序进行注释,例如 cisBP [36]、JASPAR [37]和 HOMER [38],或使用motifmatchr [39]进行无监督注释的 k-mers 。此外,TSS 的可访问性可用作特定于细胞类型的特征[20]。通常,这些基因组特征组合在一起形成一个特征集,用于准确分析细胞异质性[18]。一些工具只是简单地合并附近的峰或将它们直接用作矩阵形成的特征,而无需注释基因组元素[22]、[23]。
批次校正和数据整合
当我们对多批次的 scATAC-seq 数据进行集体分析时,技术差异等非生物因素可能会导致错误的生物学假设。批次效应可能因实验者、样品制备方案、样品采集时间、测序通道和测序技术的差异而发生[32]、[40]。scATAC-seq 数据的批量效应校正通常在没有特定计算工具的情况下间接进行。通过仔细检查,可以删除特定批次的峰或特征[21]、[22]、[26]。批量效应通常在其他预处理步骤中得到纠正,例如选择可变峰值或降维[6]、[28]、[33]。
使用基于非线性算法的数据集成方法可以更系统地校正单细胞组学数据的批量效应。这些方法假设所有批次都与另一种细胞类型共享至少一种细胞类型,并且批次之间的差异小于细胞类型之间的差异[40]。然而,这些方法也可能会消除生物学差异,从而导致过度校正。因此,需要考虑批量去除和保护生物变异的能力[41]. 虽然没有用于整合 scATAC-seq 数据的指定工具,但可以使用为 scRNA-seq 开发的工具。数据集成工具与图集级 scATAC-seq 数据的基准研究表明,它们中的大多数表现不佳,这可能归因于数据的稀疏性和二进制性质[41]。尽管如此,Harmony [42]、Seurat v3 [7]和 scVI [43]在基准研究中整合 scATAC-seq 数据时显示了批量去除和生物变异保护之间的最佳权衡。
用于批量校正的数据集成工具也可用于集成多模态单细胞组学数据(例如,整合从同一组织来源生成的 scRNA-seq 和 scATAC-seq 数据)。它们将在本评论的后面部分进一步描述。
数据转换
尽管正在尝试各种实验技术来增加测序输出,但据报道,来自单个细胞的峰值读数仅代表 scATAC-seq 分析中总可检测峰值的 1~10% [5]。因此,可以应用数据转换来弥补数据稀疏性的限制,而不是直接使用初始单元到特征矩阵进行下游分析。由于 scATAC-seq 配置文件的二进制性质(1 表示存在序列读取,0 表示不存在序列读取),主题建模的经典文本挖掘方法可用于数据转换[22]、[33]。 文档频率 (TF-IDF) 方法将细胞到特征矩阵进行转换,以赋予细胞群中更稀有的峰值更多的权重[33]。转换后的数据矩阵倾向于捕获不同单元类型的更可变(即信息更丰富)的峰值。Jaccard 距离也可用于测量可访问性矩阵中两个单元格的相异性,以表示一个单元格中的唯一峰相对于所有其他峰[21]。基于更高的测序深度归因于更好地捕获重要特征的假设,一些方法通过其测序深度来衡量每个细胞的特征[19]。
降维、可视化和聚类
在对数据进行转换以克服继承稀疏性之后,逐个特征矩阵进行 DR,这可以减轻高维数据的冗余信息和潜在噪声,并可以减少下游分析的计算时间[5]。主成分分析 (PCA) 是一种广泛使用的线性 DR 技术,要选择的主成分的数量是根据碎石图分析或 Jackstraw 测试的肘部确定的[44]。主题建模方法(例如,cisTopic)通过基于潜在狄利克雷分配(LDA) [22]生成的主题单元分布选择热门主题来减少特征矩阵的维度。虽然 LDA 相对耗时,但它可以捕获细胞类型特定的特征,这可能会提高聚类精度[5]。潜在语义索引 (LSI) 是通过使用 TF-IDF 和奇异值分解 (SVD) [33]来执行的。多维缩放(MDS)也用于根据单元格之间的轮廓相似性来减少维度[21]。扩散图是一种非线性的 DR 处理方法,它往往对排序噪声具有鲁棒性[23]。虽然一些数据分析管道省略了线性 DR 步骤,但它的应用被证明可以改善下游分析期间的整体聚类结果[5]。总的来说,这些 DR 方法的结果被用作可视化和聚类的输入。
为了在 2 维或 3 维空间中可视化数据,非线性 DR 技术,例如 t 分布随机邻域嵌入 (t-SNE) [45]和统一流形逼近和投影 (UMAP) [46]用过的。这些技术通常被称为嵌入。UMAP 可视化倾向于更好地保留全局结构,而 t-SNE 可视化保留局部邻域[46]。然而,对于单细胞分析需要使用哪些方法仍然存在争议,并且方法的选择通常取决于每个数据集的属性和使用的数据预处理方法。因此,强烈建议对给定的数据集应用多种可视化方法,并根据获得的结果进行选择。
可以将具有相似可访问性配置文件的单元组织成集群。对于 scATAC-seq 数据,有几种广泛使用的聚类方法:分层、k-means、k-medoids 和 Louvain 算法。层次聚类对于理解集群之间的整体关系很有用,结果通常用树状图可视化以捕获层次关系。K-means 和 k-medoids 聚类使用具有预定数量的聚类的参数算法。众所周知,K-medoids 聚类对噪声更鲁棒,但需要更多的计算能力。Louvain 聚类是一种基于图的方法,通常将 k-最近邻 (KNN) 方法的结果作为输入数据[7]、[23]。 一些分析工具可能有首选的聚类方法,但在大多数情况下它们是可以互换的。最近对 scATAC-seq 数据进行聚类的基准测试结果显示,使用 Louvain 聚类[5]获得了最有利的结果。
下游分析及进一步生成假设
单细胞OMICS研究的主要目的是产生关于异质细胞种群复杂混合物不同子集的生物学假设。因此,下游分析通常始于分配从预处理的scATAC-seq数据获得的簇的细胞身份。对于每个群集,通常会重复峰值调用,以识别不同细胞种群的可及染色质区域,然后对与各种预定的基因组特征(例如,顺式和反式调节元素和遗传变异)进行统计检验,以进行统计检验,并进行统计。例如,与疾病相关的SNP。下游分析方法主要旨在揭示新的调节元件并以细胞类型特异性的方式理解其功能作用。另外,可以在下游分析期间研究细胞发育过程中染色质访问性的动力学。
细胞身份注释
对于单细胞组学数据的分析,簇的细胞身份注释是初步的,但必须小心执行。在 scATAC-seq 数据的下游分析过程中,不正确的细胞身份信息可能会误导错误的生物学假设。虽然有许多工具可用于 scRNA-seq 数据的自动细胞类型注释[47],并且可以从各种数据库[32]、[48]中获得大量细胞类型特异性基因列表,但只有有限的一组用于 scATAC-seq 数据的工具和一些用于细胞类型特定染色质可及性的参考数据集[33]。因此,对于 scATAC-seq 数据,需要结合使用互补方法进行集群注释。在很大程度上,有两种细胞身份注释的方法。第一个是基于ATAC峰的特征注释,第二个是基于参考scRNA-seq数据的集成。
在根据配置文件相似性将细胞分配到不同的集群后,每个集群可以具有可能包含各种监管元素的差异可访问区域 (DAR)。细胞身份注释的第一种方法可以在用于识别这种簇特异性峰的基因组特征上有所不同。集群身份的监督或手动注释需要细胞类型特定基因组特征的数据库或参考文献,例如 TF 基序、增强子、启动子和 TSS [6]。由于细胞类型特异性基因的广泛列表,启动子和 TSS 最广泛用于集群注释。在更简单的方法中,细胞类型特异性基因的可及性可以通过在细胞类型特异性启动子或 TSS 上游一定距离内存在 ATAC 峰来定义。更高级的分析将各种远端和近端调节元素考虑在内。“基因活性评分”以不同的方式对基因启动子区域的共可访问元素进行加权,以更准确地从染色质可访问性概况推断基因表达[33]。因此,基因活性评分与基因表达谱的相关性要好于启动子可及性的简单谱[33]. 一个名为 Garnett 的软件还使用基因活性评分和已知细胞类型的先验概况以及它们的标记基因来对细胞类型进行监督分类[49]。
第二种方法利用了广泛可用的不同细胞类型的 scRNA-seq 数据。来自 scRNA-seq 数据的基因表达矩阵可以与来自相同细胞类型的 scATAC-seq 数据的基因活性评分矩阵整合。在将它们投影到最大相关维度上之后,相互最近邻 (MNN) 算法用于将细胞标签从 scRNA-seq 数据转移到 scATAC-seq 数据[7]、[33]。虽然具有高度优势细胞类型或与其他组学数据不匹配的细胞类型的样本在准确性方面存在局限性,但细胞身份注释的总体结果与匹配的数据集一致[33]。通过对 scATAC-seq 数据 (SSIP) 中的细胞群进行半监督识别,现有的参考 scRNA-seq 和批量 ATAC-seq 数据用于为感兴趣的样本生成一个 scATAC-seq 数据网络,使用来自外部数据源的参考细胞来转用细胞标签[50]。
染色质可及性动力学研究
带注释的集群继续研究染色质可及性动力学。可以使用与 DAR、伪时间依赖性变化和共同可访问性相关的各种基因组元素生成有关细胞发育调节的假设。DAR 分析用于识别特定于每种细胞类型的调节元件。通常,通过将特定簇的细胞中染色质可及性与数据集中的所有其他细胞进行比较来识别细胞类型特定的 DAR。DAR 分析采用了各种统计检验,包括二项式检验[33]、负二项式广义线性模型[20]、Wald 检验[19]、Fisher 精确检验[23]、不等方差t检验[17]和信息增益[21]以及 1% 或 5% 的错误发现率 (FDR) 调整与 Benjamini-Hochberg [6]、[23]、[33]或 Bonferroni 校正[21]。
单细胞轨迹分析利用细胞的伪时间排序来重建分化过程或细胞谱系。如果染色质可及性在细胞群内不断变化,则轨迹分析很有用。Cicero [20]是 Monocle2 [51] 的扩展,Monocle2 [51]是一种广泛用于 scRNA-seq 数据的轨迹分析工具,用于 scATAC-seq 数据。聚集附近的峰值以处理稀疏性,并选择 DAR 来定义时间状态。在使用 DDRTree [52]方法对细胞进行伪时间排序后,可以描述选定基因组区域的可及性动力学。STREAM [53]是一种轨迹分析工具,可以处理转录组和表观基因组数据。为了分析 scATAC-seq 数据,可访问性变量区域中的 k-mer 得分矩阵用于构建伪时间轨迹。STREAM 的优势在于从未经处理的原始数据文件开始的无偏见的端到端管道。使用此类工具的轨迹分析可用于识别与从一种细胞类型到另一种细胞类型的细胞发育相关的细胞类型特异性调节元件[6]、[20]、[54]、[55]、[56]。例如,如果 TF 基序的可及性在分化过程中发生显着变化,则可以进一步研究匹配的 TF 是否参与分化的激活或启动[11]、[53]、[57]。
不同基因组元素之间的相互作用对于理解调控网络很重要。可以通过不同基因组区域的共同可访问性来分析这种相互作用。Cicero 对相似的细胞进行分组以生成细胞可及性矩阵,以计算重叠基因组窗口中每对基因组元素之间的协方差。可访问性用于分析 TSS 和增强子[8]、[11]、[57]、[58]、[59]、启动子[20]和其他基因组元件之间的相互作用。
基于 TF motif的假设生成
转录因子是基因表达的主要反式作用调节剂。scATAC-seq 分析能够识别异质细胞群中不同细胞类型的特定转录因子[17]。由于 TF 高度参与发育过程,因此分析 TF 表达的细胞间变异将有助于理解它们在细胞分化过程中的作用[35]。此外,scATAC-seq 允许同时分析与相关转录因子活动相关的顺式调控元件。
使用 scATAC-seq 数据研究 TF 需要 TF 及其结合基序的软件包和数据库。最初,scATAC-seq 数据分析方法主要利用已知的 TF 基序[8]、[9]。尽管生物信息学工具(例如 Homer [38]和 FIMO [60] )并非专门为分析 scATAC-seq 数据而发明,但可用于识别开放染色质区域内的 TF 基序。为 scATAC-seq 分析开发的软件包 chromVAR 是一种广泛使用的算法,用于计算 TF 基序和 k-mers 的偏差校正偏差和 z 分数[17]。与各种细胞类型相关的转录因子,如免疫细胞[12]、心脏祖细胞[55]和神经元细胞[61],已经用 chromVAR 偏差和 z 分数进行了分析。此外,TF 基序可访问性可以与从 scRNA-seq 数据计算的 TF 表达值进行比较[62]。为了识别细胞类型特定的转录因子并根据这些转录因子基序预测细胞类型,可以使用多种模型,例如卷积神经网络[33]和随机森林分类[57]。
基于基因的假设生成
scRNA-seq 已广泛用于研究异质细胞群的基因表达谱[63]。可以从 TSS、基因体和其他调控元件的染色质可及性信息推断基因表达。TSS 和活性基因的转录终止位点位于开放的染色质区域或核小体耗尽区域[64],因此,TSS 的可及性概况可用于 scATAC-seq 数据的基于基因的下游分析。
UROPA [65]可以使用基因组注释数据库将 TSS 分配给 scATAC-seq 峰。由 TSS 注释的峰可用于进一步分析,例如比较 TSS 处染色质的打开和关闭[55]、TSS 基因集偏差的计算[58],以及识别已知标记基因的染色质可及性以识别细胞类型和状态[61],[66],[67]。然而,仅考虑 TSS 的染色质状态可能无法完全指示基因表达[20],从调控元件获取信息的“基因活性评分”计算可以改进可及性信息向基因表达的转化[20]. Cicero 基因活动评分考虑了基因 TSS 近端和远端位点的可访问性,并通过它们的共同可访问性对其进行权衡。基因活性评分已用于比较 TF 基序可及性与来自相同 scATAC-seq 数据的 TF 基因活性评分[11],使用细胞类型特异性标记基因[6],[68]注释细胞,以及转移细胞标签从 scRNA-seq 数据集到匹配的 scATAC-seq 数据集[69]。最后,为了在基因体上可视化 DAR,Deptools [70]和 MACS2 [4]生成 bigwig 文件,这些文件可以用基因组浏览器显示,例如 Gviz [71]、Integrative Genomics Viewer (IGV) [72]和 UCSC 基因组浏览器[73]。
针对不同细胞群的基因集富集分析可用于识别与细胞身份相关的通路。基因本体论 (GO) [74]和 KEGG [75]是使用最广泛的通路基因集数据库。基于与特定细胞类型的可访问(峰)区域相关的基因,分析与细胞群相关的通路。基因体[61]、[76]、TSS [55]或具有基因活性评分[57]的上游和下游延伸范围内的峰被用作通路分析的输入数据。各种基因集富集工具,例如 GREAT [77]或 clusterProfiler [78],可应用于 scATAC-seq 数据。
基于增强子的假设生成
增强子是远离其调节靶基因的顺式调节元件。增强子与其他调节元件的近端和远端相互作用已经通过分析染色质的 3D 结构来确定[79]。此外,称为超级增强子的增强子密集区域已知是细胞类型和状态特异性的[80],并且参与疾病相关的调节节点[81]。在单细胞分辨率下对增强子的研究有助于预测特定的细胞类型,因为它比其他顺式调控元件和转录组具有更高的准确性[82]。
各种研究都集中在识别细胞类型特异性增强子及其在发育过程中的参与。最常见的增强子分析类型包括识别细胞类型特异性远端和近端增强子[76]以及增强子活性的相对富集[54]、[83]、[84]。值得注意的是,各种增强数据库,例如 VISTA [85]、CRM 活动数据库 (CAD) [54]、Redfly Enhancer [86]和 Vienna Tiles 库[87],都可以用于此类分析。此外,评估增强子与具有共同可及性的启动子或基因的相互作用[57]、成对的 scRNA-seq 数据[88]、虚拟潜在空间[69]和 Activity-by-Contact 模型[83]已在多个数据分析管道中提出。
具有疾病相关遗传变异的假设生成
通过全基因组关联研究 (GWAS) 和表达数量性状位点 (eQTL) 分析检测到的疾病相关 SNP 是了解疾病基因组调控的有用资源。由于大多数 SNP 位于非编码区[68],预计许多 GWAS SNP 和 eQTL 与顺式调控元件相关;因此,开放染色质区域的研究有助于确定其功能效应[89]、[90]。此外,鉴定与疾病相关变异相关的细胞类型对于深入了解这些变异至关重要[91]. 使用 scATAC-seq,可以通过在单细胞分辨率下识别调控元件的 DNA 序列和染色质可及性,将遗传变异与其细胞和功能靶标联系起来。虽然通过各种批量测序方法将各种表观遗传特征与 GWAS 信号相关联提供了有用的结果,但单细胞分辨率分析还使我们能够克服细胞类型异质性强加的限制[33]。事实上,一些研究已经证明了在细胞类型特异性峰中提供 GWAS SNP 富集图谱的重要性[25]、[33]、[67]、[92]. chromVAR 的修改版本,称为 gchromVAR,对每个单细胞进行 GWAS 富集评分,以识别基因组区域中的因果变异和这些变异的推定目标基因,以细胞类型特定的方式[92]。通过利用共同可访问性测量,可以分析与包含调节元素的其他峰重叠的 GWAS SNP 和 GTEx eQTL 的互连峰[6]。GREGOR [93]还用于注释来自各种数据库的疾病相关 SNP 的富集[67]。最近的一些研究还实施了更复杂的模型,使用深度学习和机器学习框架来识别细胞类型特异性功能性 SNP 和相关的新功能基因[67],[68]。
整合单细胞转录组数据的分析
单细胞基因表达和染色质可及性数据的整合可以改善细胞身份注释。更重要的是,多模式数据的联合分析将有助于检测感兴趣细胞状态下的反式和顺式调节元件之间的相关性。单细胞转录组和染色质可及性的综合分析可以通过实验和计算方法来实现(图 3).
综合分析的实验方法侧重于同时从相同的细胞中获取转录组和表观基因组数据。多模式单细胞分析方法 sci-CAR 对 scRNA-seq 和 scATAC-seq 采用组合索引方法以提高通量[94]。另一种方法,单细胞染色质可及性和转录组测序 (scCAT-seq),分别为 scRNA-seq 和 scATAC-seq 分离细胞质成分和细胞核[95]。单核染色质可及性和 mRNA 表达测序 (SNARE-seq) 方法利用链接的条形码在单个液滴中捕获转座 DNA 片段中的 gDNA 和核中的 mRNA,以便对每个细胞使用相同的条形码进行并行测序[96]. 有一种方法涉及用化学试剂固定细胞,然后进行批量转座以进行单细胞分选,以降低成本并简化整个程序[97]。使用多模式单细胞技术,染色质可及性可以直接与基因表达进行比较,以了解顺式/反式调控元件与相关基因表达之间的功能关系。
目前,存在用于计算整合来自不同样本组、实验甚至技术的单细胞基因组学数据的算法方法。基于非负矩阵分解 (NMF) 的方法,例如 CoupledNMF [62]和 LIGER [98],已被证明可用于多模式单细胞数据集成。Seurat v3 是一种广泛用于 scRNA-seq 和 scATAC-seq 整合的方法[7]。Seurat v3 通过将两个不同的数据集投影到由相关变量定义的子空间,然后识别数据集之间的锚点来集成多模式单细胞数据。Harmony 是一种快速且可扩展的单细胞数据集成算法,基于数据特定集群的迭代调整[42]. 最近,报道了更多的数据集成方法,包括最大平均差异流形对齐 (MMD-MA) 算法[99]和反卷积和耦合聚类 (DC3) [100]。单细胞多组学整合已用于验证细胞身份分配[57]、[58]、[69],将差异表达基因 (DEG) 与 DAR 联系起来以推断增强子-启动子 (EP) 相互作用[88 ],观察由 TF-motif 预测的增强子的可及性趋势先于基因表达的变化[83]以及跨细胞类型或样本组的保守染色质可及性和转录的鉴定[101]。
结论与展望
尽管在细胞系统研究中具有潜在的广泛应用,但单细胞测序技术的成本相对较高且数据的高度复杂性可能会限制许多研究人员对单细胞生物学的可及性。然而,整个社区都在努力改进单细胞组学的实验和计算方法,包括 scATAC-seq 数据分析。虽然尚未就数据分析流程达成合理的共识,但最近关于 scATAC-seq 的数据生成技术和数据分析方法的出版物数量呈指数级增长。利用不同方法进行数据生成和分析的基准研究将为社区提供有用的信息,以建立 scATAC-seq 数据分析的最佳实践[27]. 此外,与其他类型的单细胞和大量组学数据以及基因组变异数据的整合,将极大地加强 scATAC-seq 研究,旨在阐明参与疾病进展的基因调控的复杂回路。特别是,scATAC-seq 与其他表观遗传技术(如 ChIP-seq 和 Hi-C)的整合将揭示 3D 染色质结构[68]、[102]. 这种综合多模式分析将有助于识别参与疾病进展的关键调节因子,这些调节因子通常是潜在的治疗靶点和诊断生物标志物。最后,我们预计 scATAC-seq 将促进对参与人类和其他多细胞生物体正常细胞发育和疾病进展的表观遗传调控和调控网络的整体看法。
end~