生物医学研究和临床应用中单细胞RNA-seq数据分析指南

作者，Evil Genius

时光飞逝，且行且珍惜。

单细胞RNA测序(scRNA-seq)在生物医学研究中的应用，提高了对疾病发病机制的认识，并为新的诊断和治疗策略提供了有价值的见解。随着包括临床样本在内的高通量scRNA-seq数据的扩大，对这些大量数据的分析已经成为进入这一领域的研究人员的一个必须面对的前景。在这里，回顾了典型scRNA-seq数据分析的工作流程，包括原始数据处理和质量控制，适用于几乎所有scRNA-seq数据集的基本数据分析，以及应针对特定科学问题量身定制的高级数据分析。在总结每个分析步骤的当前方法的同时，还提供了软件和脚本的在线数据。对一些具体的分析任务和方法提出了建议和注意事项。

Background

复杂组织由各种各样的细胞类型组成，这些细胞类型以各种各样的混合状态出现。每个细胞所包含的功能基因组信息往往与邻近的细胞群甚至同一类型的细胞有很大的不同。这意味着对块状组织中细胞群的分子分析本质上是不可靠和不敏感的。在单细胞分辨率下量化分子变化所能达到的敏感性和特异性，为揭示疾病发病机制和进展背后的分子机制带来了前所未有的机遇。自成立以来，单细胞rna测序(scRNA-seq)已被证明是一个强大的工具，用于分析单个细胞的基因表达，在生理和发病机制。例如，通过在癌症生物学中使用scRNA-seq，研究人员已经能够确定各种肿瘤类型中癌细胞的起源。此外，从治疗和预后方面，发现了具有临床显著特征的恶性细胞亚群，如具有上皮-免疫双重特征的鼻咽癌预后较差。同样，在转移性乳腺癌细胞中观察到强烈的上皮-间充质转化(EMT)和干性特征。在scRNA-seq的辅助下，还可以对类器官系统的质量和有效性进行准确评估和系统评估。患者来源的类器官模型目前正被应用于疾病病理解剖和促进个性化治疗的药物筛选。此外，通过联合应用患者来源的类器官和scRNA-seq，发现了肿瘤进展过程中不同的细胞状态，并鉴定了耐药细胞亚群。在当前的2019冠状病毒病(COVID-19)大流行中，scRNA-seq加速了表征分子基础的研究，从而理解了严重急性呼吸综合征冠状病毒 (SARS-CoV-2)的病理。多种基于scrna -seq的研究揭示了新型冠状病毒的靶向细胞亚型，分析了感染后免疫细胞的基因表达变化，量化了不同类型细胞间相互作用的改变，为开发新型冠状病毒的潜在治疗方法提供了重要资源。

自从商业单细胞平台(包括10 × genomics和Singleron提供的平台)出现以来，由研究机构或第三方公司的核心设施提供的scRNA-seq服务正在使该技术更容易获得，价格也更易接受，并在某些情况下成为生物医学研究人员和临床医生的常规技术。虽然这些服务提供商通常执行数据质量控制并执行数据处理的基本pipeline，但通常无法提供特定研究目标和科学问题所需的高级数据分析。因此，大多数生物医学研究人员需要通过确定最合适的计算工具来解剖他们的数据，来掌握scRNA-seq数据分析的全部范围。

为了克服scRNA-seq数据分析的障碍，特别是在生物医学研究中，本文旨在:1)总结生物医学scRNA-seq数据分析中每个分析任务的算法开发和基准测试结果的最新进展;2)介绍由更适合生物医学应用的推荐软件工具组成的工作流程。工作流程包括基本的scRNA-seq数据处理、质量控制(QC)、特征选择、降维、细胞聚类和注释、轨迹推断、细胞-细胞通讯(CCC)、转录因子(TF)活性预测和代谢分析。

R版本
quality control: DoubletFinder, Seurat
integration: Seurat CCA, Seurat RPCA, Liger and Harmony
reduction and clustering: Seurat
cell annotation: singleR，scCATCH, CellMarker
trajectory prediction: Monocle3
cell communication: CellChat
metabolic flux: scMetabolism

python版本
rawdata analysis: cellranger
quality control, reduction and cluster: scanpy
regulon analysis: pySCENIC
trajectory prediction: scVelo
metabolic analysis: scFEA

General tasks of single‑cell RNA‑seq data analysis

scRNA-seq的典型数据分析步骤一般可以分为三个阶段:原始数据处理和QC，适用于几乎所有scRNAseq数据集的基础数据分析，以及针对特定研究场景量身定制的高级数据分析。而基本的数据分析步骤包括数据归一化与整合、特征选择、降维、细胞聚类、细胞类型标注和标记基因鉴定。高级数据分析任务包括轨迹推断、CCC分析、轨迹推断和TF活性预测、代谢通量估计。

Experimental design

ScRNA-seq实验需要精心设计，以优化解决科学问题的能力。在开始数据分析之前，需要收集以下与实验设计相关的信息。(1)物种：对于生物医学研究和临床应用，通常收集来自患者的人体样本进行测序。在某些情况下，为了研究潜在的分子机制，也使用了小鼠和其他模式生物。由于人类与其他物种的基因名称和相关数据资源是不同的，因此在进行数据分析时，确定物种是很重要的。为简单起见，将重点介绍来自人类样本的数据。(2)样品来源：根据科学问题和样本可及性的不同，不同的研究可以选择不同的样本类型。例如，为了研究肝细胞癌等实体肿瘤，从患者身上收集肿瘤活检和肿瘤周围样本进行病例对照设计。尽管上述设计在一定程度上是可行的，但外周血单个核细胞(pmcs)更容易获得并广泛用于scRNA-seq。此外，来自患者来源的类器官的细胞通常用于研究个人遗传变异对特定器官发育的影响，这也可能是特定疾病的起源。了解样本来源有助于特定的分析，例如细胞聚类和细胞类型注释。(3)实验设计：为了研究疾病的发病机制和特定治疗的有效性，通常采用病例对照设计，如肿瘤与肿瘤周围设计。对于COVID-19等疾病，无法从同一患者身上获得正常样本，因此以年龄和性别匹配的健康人群作为对照组。为了控制患者和对照组之间可能的协变量，需要仔细考虑每组的个体数量。在(前瞻性)队列研究中，样本量通常相当大，因此scRNA-seq不能应用于来自个体捐赠者的每个样本;在这种情况下，通常采用嵌套病例-对照研究和样本复用。一般情况下，数据分析策略需要根据实验设计的类型进行调整。

Raw data processing

原始数据处理步骤包括:sequencing read QC, read mapping, cell demultiplexing and cell-wise unique molecular identifier (UMI)-count table generation。而标准化的数据处理pipeline提供了scRNA-seq平台的发布，如Cell Ranger for 10 × Genomics Chromium和CeleScope (https://github.com/singleron-RD/CeleScope）。对于Singleron的系统，替代工具包括umi -tools, scPipe, zUMIs, celseq2, kallisto bustools和scruff也可以用于此过程。根据最近一项对scRNA-seq分析进行基准测试的研究，这些pipeline之间的选择似乎没有下游步骤重要。在任何情况下，都不建议在个人电脑上处理原始数据，因为这些pipeline需要大量的计算资源，并且针对高性能计算架构进行了优化。第三方公司通常提供处理过的数据，包括UMI计数矩阵和QC指标，使研究人员能够专注于解决科学问题的下游数据分析。

QC and doublet removal

细胞QC的目的是确保所有被分析的“细胞”都是单个且完整的细胞。损坏的细胞，死亡的细胞，受压的细胞和双细胞需要丢弃。细胞QC最常用的三个指标是:UMI总计数(即计数深度)，检测到的基因数量，以及每个细胞条形码中线粒体计数的比例。Cell Ranger和CeleScope通常执行第一轮细胞QC，通过检查scRNA-seq文库中计数深度的分布，将潜在的真实细胞与背景细胞条形码区分开来。需要注意的是，当损坏的细胞或细胞碎片在文库中占相当大的比例时，有效细胞的最小计数深度的阈值很难确定。可能的解决方案包括同时考虑多个QC指标，以及应用更复杂的方法来排除背景和低质量细胞。通常情况下，低数量的检测基因和低计数深度表明细胞受损，而高比例的线粒体来源计数表明细胞死亡。相比之下，检测到太多的基因和高计数深度可以表明双基因。虽然像Seurat和Scater这样的R包实现了促进细胞QC的功能，但QC指标的阈值在很大程度上取决于所研究的组织、细胞解离协议、库制备方案等。参考具有相似实验设计的文献将有助于确定阈值，高级研究人员也可以检查QC指标的联合分布。值得注意的是，编码核糖体蛋白的基因的累积表达并不是一个典型的QC指标，因为核糖体蛋白表达的变化在生物学上是有意义的。
此外，在QC步骤中需要考虑和控制各种污染源。例如，来自pbmc和固体组织的文库可能被红细胞污染，因此表达高水平血红蛋白基因的细胞(如HBB)通常被丢弃。另一种污染来源是无细胞或环境RNA，这可以从高通量scRNA-seq中无细胞液滴或孔中的特定基因的读取中得到证明。估计和清除这种污染的方法和工具最近已经开发出来，包括SoupX, DecontX，环境RNA的快速校正(FastCAR)和CellBender。去除单细胞基因表达中环境RNA引起的背景信号可以改善下游分析和生物学解释。

在高通量scRNA-seq实验中，观察到高比率的双细胞并不罕见，其可达细胞条形码的40%。因此，仅考虑计数深度和检测基因数量的过滤步骤是不够的，特别是当细胞类型组成复杂时，单细胞的计数深度分布与双细胞的计数深度分布没有区别。由不同细胞类型组成的双细胞可能会混淆下游分析，特别是在细胞聚类、差异表达分析和轨迹推断中。幸运的是，已经开发了许多复杂的方法来解开这些混杂的信号。这些方法考虑单个细胞条形码的基因表达谱，并报告双细胞分数作为指标。双细胞评分的计算基于人工双细胞[如单细胞去除双细胞(Scrublet)， doubletCells，基于二元分类的双细胞评分(bcds)， DoubletDetection, DoubletFinder, Solo, DoubletDecon]或基因共表达[如基于共表达的双细胞评分(cxds)。在最近的一项研究中，使用一组综合的合成和真实数据对现有的计算双检测方法进行了基准测试，推荐使用Doubletfinder工具，因为它在下游分析中实现了最高的检测精度和最佳的性能。

Expression normalization

每个细胞总UMI计数的可变性取决于技术和生物学参数的范围。技术因素与RNA捕获效率、逆转录、cDNA扩增和测序深度有关，而生物学因素主要与细胞大小和细胞周期阶段有关。由于这种变异，除非在测序文库中添加外部的spike-in RNA对照，否则几乎不可能获得RNA分子的绝对数量。与bulk RNA-seq一样，相对RNA丰度通常用于比较单个细胞之间的基因表达谱;因此，scRNA-seq数据通常采用global-scaling方法进行归一化，其中scaling factors是为bulk RNA-seq开发的，这部分抑制了技术效应。Popular global-scaling methods for bulk RNA-seq include transcript per million (TPM), upper quartile (UQ) normalization, trimmed mean of M values (TMM) normalization, and the DESeq normalization method，然而，由于通过零膨胀的扭曲趋势，不适用于scRNA-seq。为scRNA-seq量身定制的归一化方法，包括单细胞差异表达(SCDE)和基于模型的单细胞转录组学分析(MAST)，可以具体模拟scRNA-seq数据差异表达分析中的缺失事件。另一种方法，Scran，通过汇集相似基因表达谱的细胞，克服了缩放因子估计的问题(受太多零计数的影响)。Scran的池化策略在缩放因子估计方面优于比较工具，TPM-/count深度缩放方法在实践中得到广泛应用。
在基于缩放因子的归一化之后，通常将结果值添加到一个伪计数并进行对数转换。这一步实际上是有用的，在统计上是合理的，因为它减轻了scRNA-seq计数数据中的均值-方差关系，也减少了表达数据中的偏态。为了更好地稳定方差，SCTransform(由Seurat团队开发)，它应用正则化负二项式回归进行scRNA-seq数据归一化和方差稳定性。
一些已知的生物效应，如细胞周期和细胞应激(以线粒体基因的过度表达为特征)，可能会阻碍对特定生物信号的表征。因此，对已知生物学的表达谱进行规范化或校正可能有助于解释数据。例如，纠正细胞周期的影响可以改善发育轨迹的重建。计算生物效应的程序可以通过对相关生物学特征(例如，细胞周期分数)进行评分来实现，然后对Seurat中实现的计算分数进行简单的线性回归。此外，单细胞潜在变量模型(scLVM)/阶乘单细胞潜在变量模型(f-scLVM)和细胞生长校正(cgCorrect)等专用工具也可用于此目的。值得注意的是，纠正一种特定分析的生物效应(例如，细胞分化)可能会无意中阻碍另一种分析的信号(例如，细胞增殖);在为特定的分析任务选择数据规范化策略时应该谨慎。

Data integration

正如在“实验设计”中提到的，生物医学研究通常会进行病例与对照组的比较。通常，从不同医疗中心或医院获得的批次样品应该在下游分析之前进行整合。对于使用患者来源的类器官的研究，数据集成也适用于在不同时间点收获的细胞，以描述类器官的发育。在这些情况下，另一个不必要的技术因素，批次效应，是无法避免的，因为细胞和文库制备是由不同的人，在不同的时间点，或用不同批次的试剂处理的。在scRNA-seq中，批效应可能是非线性的，这可能不容易被最先进的批校正工具(如ComBat)解开。因此，最近在scRNA-seq数据集成中开发了许多批效应校正方法，试图在保留生物变异的同时减轻或消除批特定偏差造成的影响。批量效应校正方法可分为以下几类:1)用于bulk表达分析的工具，包括ComBat和limma;2)基于高维基因表达空间及其子空间中相互近邻(MNN)的方法，如mnnCorrect、fastMNN、Scanorama和批量平衡k近邻(BBKNN);3)尝试在降维空间中以相关/共享特征对齐细胞的方法，包括典型相关分析(CCA)、Harmony和基因组实验关系的关联推断(LIGER);4)基于深度生成模型的方法，如scGen。此外，根据整合锚点的选择，算法还可以分为不同的类型，例如以基因组特征为锚点，以细胞为锚点。

文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data比较了当时在5种不同集成场景下的10个数据集上可用的14种批量效应校正方法。其中，根据Seurat 3中实现的Harmony、LIGER和CCA的整体性能，推荐使用。结合项目经验，建议依次使用Harmony、Seurat3/4-CCA、LIGER进行数据集成。这是因为在处理不同的数据集时，这三种策略中没有明显的优劣之分。Harmony比其他工具运行得更快，适合初始探索;Seurat3/4-CCA在不同批次的细胞混合中是适度的，而LIGER在批量混合中做出了最大的努力，有时以细胞类型纯度为代价。值得注意的是，如果有人想评估批效应校正的有效性或评估数据中的批效应的程度，可以通过比较基于批效应校正分析的聚类或可视化结果，以及通过直接合并来自多个样本的细胞(例如Seurat中的合并函数)，并通过计算测试指标，如k-最近邻批效应检验(kBET)来实现。

Feature selection

当细胞QC去除背景细胞和有问题的细胞时，特征部分是关于基因的。在人类基因组中，有超过20,000个基因被注释，并对单个基因位点的mapping读数进行计数，以产生UMI计数矩阵。然而，并不是所有的> 20,000个基因都能在表征细胞间异质性或区分细胞类型/状态方面提供信息。因此，“特征选择”一词是从统计学和机器学习领域借来的，用来描述为下游分析选择具有生物学信息的基因的过程。这一过程通常是无监督的，这意味着不需要与细胞类型或其他感兴趣的生物过程相关的信息。
考虑到scRNAseq数据中相对较高的噪声水平，特征选择通常识别出生物变异性比技术噪声更强的基因。由于技术噪声很大程度上依赖于基因的平均表达，高变基因(hvg)最初是通过检查变异系数和表达均值之间的关系来识别的。由于其在降低技术噪声和缓解下游分析中的计算需求方面的有用性，例如细胞聚类和可视化的降维，许多其他用于HVG识别的工具被开发出来并进行了比较评估。替代的特征选择方法不是识别hvg，而是考虑退出并优先考虑观察到的零数量高于预期的基因。
从理论上讲，选择用于下游分析的基因数量取决于所研究样本中细胞组成的复杂性。虽然用于HVG识别的方法可以确定给定显著性水平上的HVG数量，但识别固定数量的HVG正变得流行，通常HVG数量在1000到5000之间。研究表明，下游分析对hvg的确切数量不敏感。值得注意的是，一些不利的协变量，如批效应，可能会扭曲HVG识别。因此，应在校正协变量后进行HVG选择。在存在批效应的情况下，特征选择也可以在数据整合之前对单个样本进行。

Dimensionality reduction and visualization

在选择1000-5000个hvg的情况下，表达式数据的维数仍然很高，从而阻碍了对数据集的人工检查，如可视化、聚类和细胞类型注释。为此，可以通过降维技术进一步降低表达矩阵的维度，将细胞从高维空间投射到低维嵌入空间，并保留细胞间变异的生物学信息。常用的降维方法有主成分分析(PCA)、非负矩阵分解(NMF)、多维标度(MDS)、t分布随机邻居嵌入(t-SNE)和均匀流形近似投影(UMAP)等。

PCA是一种通用的降维降噪技术，在scRNAseq数据分析中得到了广泛应用。通过将原始表达式矩阵线性投影到其子空间，主成分分析按照重要程度的顺序给出主成分(PCs)。虽然前两到三维pc可以用于可视化，但通常保留更多的pc用于下游分析，如细胞聚类和轨迹推断。保留的pc数量很大程度上取决于数据集的复杂性，可以通过“elbow”方法或基于jackstraw排列测试的方法确定。然而，PCA在分析中不能考虑dropout事件，这导致了一些新的方法的发展。零膨胀因子分析(zero - inflation factor analysis, ZIFA)是其中一种基于因子分析的方法，该方法能清晰地模拟失学率特征，并优于比较方法。与PCA相似，NMF是一种线性投影降维方法，在基于scRNA-seq的细胞聚类中表现出了稳健的性能。

对于可视化，非线性降维方法更适合，它允许在二维/三维空间中进行全局非线性嵌入。MDS是一种非线性降维方法，它保留了原始空间中细胞间的距离。然而，MDS不能扩展到大规模的scRNA-seq数据，因为当细胞数很大时，计算成对距离变得困难。越来越多的证据表明t-SNE和UMAP更适合用于scRNA-seq数据，scRNA-seq数据已广泛应用于单细胞分析，用于数据可视化和细胞群识别。然而，t-SNE通常存在一些局限性，例如对于大规模scRNA-seq数据集的计算时间较慢，并且没有保留全局数据结构。UMAP具有上述两方面的优势，成为目前最受欢迎的降维选择。UMAP不仅有助于可视化细胞类群，还有助于注释细胞类群。然而，值得注意的是，虽然UMAP在保存全局数据结构和捕获局部相似性之间取得了平衡，但结果空间中的细胞之间的距离并没有被保留。因此，像聚类和伪时间推断这样的下游分析通常是基于几个到几十个pc的PCA结果执行的。

Identification of cell subpopulations

单细胞转录组学的关键应用之一是基于细胞聚类或分类来确定细胞亚群。由于scRNA-seq数据中存在高水平的噪声，对scRNA-seq矩阵数据应用降维方法可能有助于细胞聚类。虽然PCA通常用于bulk RNA-seq，但细胞亚群之间基因表达的真正生物学变异性可能不容易通过少量的pc来区分。为了更好地解释这种变化，NMF被用于在单细胞转录组数据中分离亚群，并已被证明优于PCA，具有更高的准确性和稳健性。同样，SinNLRR被开发用于通过非负和低秩表示提供基因表达子空间的稳健聚类。

最先进的聚类方法，如k-means算法，也已应用于scRNAseq数据集，并基于此应用开发了单细胞共识聚类(SC3)方法。scRNA-seq中另一类常用的细胞聚类方法是基于细胞最近邻网络的社区检测方法，该方法在Seurat R包中被采用和实现。此外，还开发了多种细胞聚类方法。例如，BackSPIN利用了双聚类技术来避免层次聚类中不利的成对比较，通过多核学习的单细胞解释(SIMLR)基于多核学习，通过imputation和降维聚类(CIDR)利用imputation来减轻scRNA-seq中退出的影响，通过混合模型的单细胞聚合聚类集成聚类(SAME-clustering)集成聚类由多种方法产生。然而，两项独立的基准测试研究表明，SC3和Seurat中的聚类方法表现相似，并且优于所有其他比较方法。

相似度或距离度量对于scRNA-seq中的聚类细胞至关重要，这可以特定于实验平台或特定样本。研究表明，与无监督聚类方法相比，用于细胞类型识别的监督方法较少受到批效应、细胞类型数量和细胞群体组成不平衡的影响。在机制上，监督方法依赖于一个全面的参考数据库，已知的细胞类型注释，在此基础上训练分类模型来预测未注释数据集中的细胞类型。CellAssign、scmap、单细胞识别(SingleR)、分级分类辅助的细胞类型表征(CHETAH)和SingleCellNet是该类方法。尽管监督方法具有明显的优势，但非监督方法通常更擅长识别未知细胞类型，具有更高的计算效率。因此，在Seurat中实现的聚类方法综合性能最好，建议作为细胞类型识别的首选方法。

单细胞聚类分析的另一个重要问题是罕见细胞类型的检测，这些细胞类型在复杂疾病中发挥重要作用，但丰度较低。RaceID, GiniClust, sincerely和dendrisplit是专为在scRNA-seq数据分析中识别罕见细胞类型而设计的聚类算法。

Cell type annotation

为细胞亚群分配细胞身份(称为细胞类型注释)是scRNA-seq数据分析的关键步骤。手动注释细胞类型非常耗时，而且可能是主观的。因此，新兴的计算工具已经开发用于自动细胞类型注释。这些计算方法通常可以分为三大类。

第一种类型是基于标记基因的，它依赖于公共数据库或文献中细胞类型特异性标记的可用性。CellMarker和PanglaoDB是常用的在线资源，存储了人类和小鼠组织中各种细胞类型的标记。CellMarker通过手动管理超过10万篇发表的论文，保存了大约500种人类细胞类型的13000多个细胞标记，PanglaoDB是一个细胞标记概要，包含来自1000多个scRNA-seq实验的6000个不同细胞类型的标记。此外，开发了TF-Marker数据库，为人类提供细胞或组织特异性tf和相关标记。这些数据库是细胞类型注释的宝贵资源。与此同时，已经开发了许多使用标记基因进行细胞类型注释的工具，如ScType、scSorter、半监督类别识别和分配(SCINA)、基于单细胞集群的细胞异质性自动注释工具包(scCATCH)和CellAssign。其中一些方法应用复杂的统计模型来利用标记基因的先验知识。例如，SCINA建立了一个半监督模型，利用期望最大化(EM)算法利用先前识别的标记基因，CellAssign利用概率图形模型，根据细胞类型标记基因的先验知识将细胞注释为预定义的或新的细胞类型，同时考虑批次和样本效应。

第二种方法是基于参考转录组的，它使用细胞类型标记的scRNA-seq数据集作为细胞类型注释的输入，通过搜索查询数据与参考数据之间的最佳相关性。这组常用的工具包括CHETAH, scmap, scMatch和SingleR。CHETAH算法基于由已知细胞类型的引用概要文件构建的分层树，并通过从根节点到叶节点逐步遍历树来搜索细胞的最佳注释。基于200个最具辨识性的基因，计算输入细胞与所考虑的两个树枝的相关系数，计算出选择树枝继续树遍历的剖面分数和置信度分数。SingleR方法将每个未注释的单细胞转录组与参考数据中基于hvg的已知细胞类型的参考转录组相关联。SingleR以迭代的方式分配细胞标识，并且在每次迭代中缩减参考集以细化分配。值得注意的是，参考转录组数据的全面性对这组方法至关重要。常用的参考数据有Blueprint、Encode和Human Primary Cell Atlas。

最后，第三种利用基于监督机器学习的方法，其中由标记参考训练的分类器然后应用于预测未注释细胞的细胞类型。例如，SingleCellNet使用多类随机森林分类器，使用神经网络的自动细胞类型识别(ACTINN)使用人工神经网络，scPred使用支持向量机(SVM)， scclassification使用集成学习进行细胞类型注释。此外，ontology-based的单细胞分类(OnClass)还可以通过识别由细胞本体和未注释的细胞产生的低维嵌入中最近的细胞类型，准确地注释训练数据集中没有的细胞类型。

细胞类型注释的自动化方法已应用于广泛的生物医学研究，包括癌症研究。然而，最近的一项基准研究表明，每种计算方法在不同的场景下都具有特定的优势，这使得临床用户很难选择合适的工具。集成来自多个工具的注释结果可能是上述问题的解决方案，并可能实现更准确的细胞类型注释。因此，最近开发了用于免疫细胞聚类和注释的ImmCluster，集成了7种基于参考和4种基于标记基因的计算方法，并由手动策划的标记基因集支持。比较研究表明，与单个方法相比，ImmCluster提供了更准确和稳定的细胞类型注释。

Marker gene identification

特定细胞群或细胞类型的标记基因是表征其功能的重要资源。反过来，如上所示，标记基因也可以用于细胞类型注释。识别细胞簇/类型特异性基因的典型方法是基于统计检验在簇中识别差异表达基因(DEGs)。例如，scRNA-seq分析pipeline Seurat和sincerely使用非参数Wilcoxon 's秩和检验来识别特定细胞类型的高表达基因。研究表明，Wilcoxon秩和检验的假阳性率低于基于测序的DEG分析的专用方法[例如，DESeq2和R (edgeR)中数字基因表达(DGE)的实证分析]。此外，SC3采用非参数Kruskal-Wallis检验对两组以上细胞进行比较。考虑到scRNA-seq中的缺失以及细胞类型或状态之间基因表达分布的差异，许多其他方法被开发用于标记基因鉴定，如MAST, SCDE和DEsingle。

还有一类方法是在细胞聚类过程中同时识别细胞特异性基因，而不是在此之后再进行一步。如前所述，BackSPIN是基于一种聚类方法，即在聚类细胞时将高表达基因聚在一起。同样，迭代聚类和导向基因选择(ICGS)首先通过表达基因的成对相关性来识别导向基因，然后对导向基因进行迭代聚类。此外，DendroSplit在识别subcluster时考虑标记基因的显著性水平。最后，对单个细胞中基因表达的分布进行统计建模，开发了scRNA-seq数据的方差驱动多任务聚类(scVDMC)、BPSC和偏差校正测序分析(BCseq)等方法，以改进细胞亚型鉴定和差异表达分析。

关于scRNA-seq中DEG工具的最佳选择，最近的一项研究比较了36种方法，发现了所比较的方法之间的根本差异。有人指出，低表达基因的预过滤可能有助于DEG分析，用于bulk RNA-seq分析的方法通常与专门为scRNA-seq开发的方法具有相当的性能。总体而言，除复杂的实验设计外，非参数Wilcoxon’s秩和检验在大多数应用场景中排名较高。

Functional enrichment analysis

为了促进在每种细胞类型中鉴定的标记基因的解释和组织，通常进行功能富集分析。为bulk 转录组学开发的计算方法可以很容易地应用于这种分析，例如用于注释的数据库、可视化和集成发现(DAVID)。这种分析需要一个统计显著性的硬界限来定义标记基因;相比之下，广泛使用的基因集富集分析(GSEA)是一种无截断的方法。GSEA首先根据感兴趣的细胞群之间的差异表达统计数据对基因进行排序，然后统计评估一个功能有意义的基因集或途径是否在排名列表的顶部或底部显著过度代表。为了便于GSEA分析，分子特征数据库(MSigDB)提供了一系列标注的基因集，包括通路和标记基因特征。

除了上述基于标记基因或两组细胞差异表达进行功能标注的情况外，富集分析还可以在单细胞水平上进行。单样本GSEA (ssGSEA)和基因集变异分析(GSVA)是GSEA的类似物，用于单个散装样品的富集分析，目前已广泛用于scRNA-seq计算特征评分。此外，考虑到其在scRNA-seq中的特点，还提出了更具体的工具，包括Vision、Pagoda2、AUCell、单细胞签名浏览器(SCSE)和联合评估签名均值和推断富集(JASMINE)，总体上更适合用于scRNA-seq中的签名评分。此外，这些特征评分方法也可用于通路活性推断。

Trajectory inference and RNA velocity

除了scRNA-seq可以捕捉到的细胞间异质性外，转录组的动态也可能反映了发育轨迹或细胞状态的转变。轨迹推断、伪时间估计和RNA速率建模都有助于揭示细胞分化或激活过程中的分子特征和调控机制。

轨迹推断是过去几年的一个热门研究领域，开发了大约100个计算工具，促进了发育生物学以及癌症发展和免疫反应状态改变的研究。此外，应用这类方法还可以促进新细胞类型的客观识别，以及在发育或状态转换过程中调节网络的推断。根据轨迹的类型，轨迹推断方法也可以分为不同的类别，包括线性方法[如SCORPIUS，单细胞分析工具(TSCAN)， Wanderlust，分叉方法[如扩散伪时间(DPT) ， Wishbone]，多分叉方法[如FateID, STEMNET，混合因子分析器(MFA)]，树方法(如Slingshot, scTite, Monocle)，图形方法[如基于分区的图形抽象(PAGA)，稀有细胞类型鉴定(RaceID)，细胞表达关系的选择性局部线性推断(SLICER)]。目前，轨迹推断方法日趋成熟，特别是线性和分叉方法。基于最近的基准研究，给出了实际应用的指导方针，以便生物医学研究人员可以根据数据中预期拓扑的先验知识选择适当的方法;否则，建议使用PAGA、Monocle、RaceID和Slingshot进行初步研究。

根据现有的生物学知识，在推断发育或转变轨迹的起点上，沿着轨迹的细胞可以以伪时间顺序排列。如果轨迹中存在分叉、多分叉或树形结构，则应采用多条路径分别经过树枝。这样，就很容易研究沿伪时间的基因表达动态。建立了基于轨迹/伪时间的差异表达分析方法，揭示了谱系/状态规范的动态调控。

捕捉转录组动态的另一种方法是使用RNA速率，这是基于同一细胞中成熟和未成熟转录本(即未剪接的内含子)之间的关系。如果细胞中有相对较多的未剪接转录本，则该基因处于上调状态，反之亦然。联合量化成熟与未成熟转录物的比值，以及状态变化过程中基因表达的变化，从而确定细胞转化的方向。这一基本原理已在第一个RNA速率方法Velocyto中实现，并在后续方法scVelo中进行了改进，其中采用了likelihood-based的动力学模型。此外，最近开发的方法将RNA速率与轨迹推断相结合，从而实现独立于先验知识的定向轨迹推断。例如，CellRank利用了轨迹推断的鲁棒性和来自RNA速度的方向信息，能够检测以前未知的轨迹和细胞状态。CellPath是另一种整合单细胞基因表达动态和RNA速度信息进行轨迹推断的方法。

Cell–cell communications

CCC事件在机体的发育和稳态、疾病的发生和发展中起着重要作用。例如，肿瘤微环境是由肿瘤细胞、基质细胞和多种免疫细胞组成的复杂生态系统，这些细胞之间的通信异常或中断可能促进肿瘤生长。为此，开发了各种计算工具来使用scRNA-seq数据推断CCC。细胞间的通讯通常依赖于配体-受体(LR)的相互作用，这通常是量化LR共表达。

为了便于上述研究，已知的配体受体相互作用(LRIs)已被手动整理并存入数据库。到目前为止，LRI数据库有相当多，包括CellPhoneDB, ICELLNET, CellTalkDB, SingleCell - signaLR和Omnipath。最近更新的CellPhoneDB(版本4)包括近2000个配体和受体蛋白之间的高置信相互作用，以及异构体蛋白复合物。CellTalkDB是另一个综合性的人类和小鼠LRI数据库，包括3398对人类LR对和2033对小鼠LR对。同时，scRNA-seq数据使用前面提到的方法进行细胞聚类和注释。将注释的scRNA-seq数据与已知的LRIs集成，通常计算样本特定的LR分数，量化相互作用的潜力。基于LR共表达，LR评分函数可分为表达阈值、表达相关、表达乘积和微分表达组合等几类。例如，Camp等人仅在配体和受体的表达值都高于某一阈值[log2(FPKM)≥5]时才考虑LR配对。相比之下，SingleCellSignalR方法是基于LR基因表达水平的乘积。

近年来，基于scRNA-seq数据预测CCC的计算方法不断发展。CCC推理工具根据其特点可分为三类:基于网络的推理工具、基于机器学习的推理工具和基于空间信息的推理工具。基于网络的方法，包括NicheNet、细胞-细胞通信资源管理器(CCCExplorer)、scConnect和多细胞相互作用网络分析工具包(NATMI)，利用基因之间的连接网络来预测CCC。例如，NicheNet将单细胞表达数据与信号通路和基因调控网络的先验知识整合在一起，其特点是应用个性化PageRank算法，用于计算配体-靶标调控潜在分数。在基于机器学习的方法中采用了各种类型的机器学习算法，如SingleCellSignalR、基于相似矩阵优化的单细胞数据分析(SoptSC)和Python最大信息网络探索资源(PyMINEr)。此外，参考成分分析(RCA -CCA)、线性回归和决策树分类器也用于CCC预测。细胞在空间上的定位或细胞间的空间接近是细胞定位的前提;因此，考虑空间信息将提高CCC推断的准确性。随着空间转录组学的快速发展，许多CCC推断方法将scRNA-seq数据与空间转录组学和/或图像数据相结合，用于识别CCC。CellTalker通过计算LRIs的数量来评分细胞类型之间的通信，然后使用图像数据通过细胞之间的空间接近性来评估。此外，在Python (Squidpy)和组织学地形细胞术分析工具箱(histoCAT)中对分子数据的空间量化提供了空间组学数据的分析框架，其中可以通过细胞接近或邻域分析来研究细胞间的通信。此外，CellChat的作者将空间信息作为评估不同CCC推断方法的金标准，并表明CellChat在预测更强的相互作用方面表现得更好。最后，通常采用热图、马戏图、桑基图和气泡图对推理结果进行可视化。

新兴的用于识别CCC的计算方法提高了我们对疾病发展微环境的理解。然而，所有的方法都依赖于LRIs的先验知识和统计或机器学习模型来预测潜在的CCC事件。或者选择LRI资源和预测方法可能会导致不同的结果，但选择对结果的影响在很大程度上是未知的。为了解决这一问题，最近的一项研究系统地比较了16种资源和7种CCC推断方法，以及比较方法的一致性。对比表明，不同的LRI资源覆盖了不同比例的集体先验知识，预测的CCC在很大程度上相互不一致，这表明需要继续努力改进CCC推断资源和工具。

Regulon inference and TF activity prediction

转录因子在基因表达调控中起着至关重要的作用，参与了人类的各种生理病理过程。在scRNA-seq中已经实现了识别被感兴趣的tf直接调控的共表达模块，并将这些模块定义为调控子。因此，绘制细胞类型特异性调控图和重建单个细胞中基于调控的调控网络成为可能。

识别规则的一个重要资源是TF-target数据库。动物转录因子数据库(Animal Transcription Factor DataBase, AnimalTFDB)、JASPAR、基于语句的文本挖掘(trust)揭示的转录调控关系、KnockTF和Cistrome Data Browser (Cistrome DB)是应用广泛的TF注释数据库，涵盖了大多数人和小鼠的TF。基于这些数据库，建立细胞类型特异性转录调控网络的一种简单方法是识别上调的tf和/或差异表达的tf靶基因。例如，最近的一项scRNAseq研究基于AnimalTFDB TF注释确定了差异表达的TF，并揭示了在胎儿上皮中表达的TF的再激活可能是克罗恩病的原因。

结合单细胞基因表达和全面的TF-靶标信息，已经有许多方法用于推断规则和TF活性。共表达分析，如加权基因共表达网络分析(WGCNA)，已广泛应用于bulk样本，以检测可能由相同TF调节的基因模块。最近，这种方法也被应用于scRNA-seq数据，例如，发现在HIV感染过程中表达发生显著变化的基因模块。单细胞调控网络信息和聚类(single cell regulatory network information and clustering, SCENIC)方法是最早基于scRNA-seq数据进行调控推理的方法，目前已被用于癌症、COVID-19等多种疾病的调控网络研究。在SCENIC中，首先通过随机森林回归等机器学习方法推断TF与其目标基因之间的共表达模块，然后通过TF的binding motif分析进行规则识别，只保留其在共表达模块中的直接目标，形成规则。最后，计算二值化分数，以表明TF在每个细胞中的活性。其他方法，包括SCODE和SINCERITIES，利用scRNA-seq中重构的伪时间信息，基于常微分方程或随机微分方程模型推断tf -靶标调控网络。此外，机器学习技术也被应用于转录调控分析。例如，SIGNET采用多层感知器袋装来识别规则，DeepDRIM采用监督深度神经网络来重建基因调控网络。特别是，DeepDRIM被证明能够耐受scRNA-seq中的缺失事件，并在COVID-19轻、重度症状患者中识别出不同的B细胞调节网络。

尽管基于scRNA-seq的基因调控分析方法很多，但由于转录调控的复杂性和scRNA-seq数据提供的信息不足，还需要对推断结果进行严格的判断。进行验证实验可以使推断的结果更加可靠。

Metabolic analysis

代谢是所有生物过程的核心，代谢失调是许多疾病的标志，包括癌症、糖尿病和心血管疾病。虽然单细胞代谢组学技术正在迅速发展，但现在要大规模应用还为时过早。相反，基于单细胞转录组学的代谢分析是一种有前途的替代方法。例如，研究人员可以使用scRNA-seq来监测关键代谢基因在不同处理下或重要生理/病理过程中的基因表达变化
基于scrna序列的代谢分析的计算工具可分为两大类:基于通路的分析和基于通量平衡分析(FBA)的方法。对于第一类，通常使用标准功能富集分析方法(请参阅题为功能富集分析的小节)。特别是，R包scMetabolism为scRNA-seq中代谢途径活性的定量分析提供了一个集成的框架，具有解释退出的能力，并与用于单细胞功能富集分析的多种工具兼容，包括ssGSEA, Vision和AUCell。

另一类是基于fba的方法，其中利用基于约束的数学模型系统地模拟重建代谢网络中的代谢。代谢网络的重建通常基于策划数据库，如京都基因和基因组百科全书(KEGG)和Reactome;然后，FBA在满足输入和输出通量约束的情况下计算系统的静态代谢通量。单细胞中单个酶的表达水平可能不会直接影响网络中的代谢通量，因为它们主要依赖于网络拓扑结构和约束条件。据我们所知，单细胞通量平衡分析(scFBA)是第一个结合scRNA-seq数据和FBA来估计单细胞通量体的计算工具。后来，提出了罗盘和单细胞通量估计分析(scFEA)。Compass基于Recon2对人体代谢的重建，并通过线性规划解决基于约束的优化问题，对单个细胞中每个代谢反应的潜在活性进行评分。相比之下，scFEA引入了概率模型来考虑通量平衡约束，引入了多层神经网络来模拟通量变化和酶基因表达变化的非线性，并引入了图神经网络来解决优化问题。scFEA的分析结果可以进行各种生物学上有意义的下游分析，如细胞-细胞代谢通信。

discussion

最近，Live-seq已经开发出来，通过保持细胞存活，同时从单个细胞中提取RNA，将scRNA-seq从端点型分析转换为时间分析工作流。预计Live-seq将解决scRNA-seq之外的许多其他生物学问题。此外，其他基于测序的单细胞分析技术也在快速发展中。为了更好地了解疾病条件下改变基因表达的异常调节，使用测序(ATAC-seq)的单细胞转座子可达染色质检测(ATAC-seq)、单细胞DNA甲基化分析和单细胞Hi-C都有助于从不同角度在单细胞分辨率上解剖潜在的调控机制。算法也被开发来集成这些多模态单细胞数据，能够更好地解决细胞状态和定义新的细胞亚型。此外，单细胞多组学方法可以同时分析相同细胞中的两个组学，为单个细胞提供调控元件和相应基因表达水平的信息。这些技术生成的数据集可以帮助生物医学研究人员发现特定疾病的调节程序，可能是在某些细胞类型的子集中。此外，虽然仍处于发育阶段，但空间转录组学是一种很有前途的技术，可以考虑细胞环境来表征特定细胞的分子特征。随着空间转录组学分辨率的不断提高，期望在分析细胞微环境和细胞与健康和疾病的相互作用方面获得更深入的知识。总的来说，随着技术的不断进步，特别是那些以单细胞分辨率解析分子特性和相互作用的技术，我们将能够更好地了解各种疾病的发病机制，并在不久的将来实现个性化治疗。

参考文献

Su, M., Pan, T., Chen, QZ. et al. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications. Military Med Res 9, 68 (2022). https://doi.org/10.1186/s40779-022-00434-8

原文详见：

https://mmrjournal.biomedcentral.com/articles/10.1186/s40779-022-00434-8

生物医学研究和临床应用中单细胞RNA-seq数据分析指南