单细胞转录组和空间转录组技术的火爆,推动了数据集的指数级增长,大型细胞图谱的构建,也正准备促进向精准医学的转变。在精准医学中,特定细胞和转录本的存在和比例将指导疾病分类、治疗和预后。最近,《Nature Reviews》杂志刚发表了一篇最新的单细胞转录和空间转录组技术的综述,全面讨论了样本处理、数据处理、分析算法和技术应用前景的最新进展,就像结尾说的那样,我们才刚刚开始揭开细胞的奥秘。文章值得深入学习,全文如下,详细分析算法和工具整理表格见结尾。
摘要
在这篇综述中,讨论了识别和表征细胞状态和多细胞邻域的最新进展、挑战和前景。包括样本处理、数据整合、识别微妙的细胞状态、推断细胞轨迹、预测发育潜力、反卷积和空间生态型分析方面的最新进展。此外,还讨论了深度学习,包括基础模型,在分析单细胞和空间转录组数据中的应用。最后,讨论了这些工具在干细胞生物学、免疫学和肿瘤生物学领域的最新应用,以及单细胞和空间转录组学在生物研究中的未来及其向临床的转化。
单细胞转录组
在样本处理和解离中识别技术和生物学协变量
样本制备、细胞解离和RNA捕获是生成scRNA-seq数据的第一步,也许是最不标准化的步骤(图2a)。生物体死亡后不久,组织组成就会发生变化,免疫细胞的渗出机制恶化,脆弱的细胞会经历凋亡。RNA合成停止,降低了每个细胞可检测到的转录本数量,并且会发生非随机的转录变化,包括线粒体RNA含量的组织特异性变化、剪接失调、替代异构体的增加产生,以及与碳水化合物代谢、免疫反应、细胞周期、应激反应和细胞坏死相关的基因失活。使用不同的解离方案时,也会观察到类似的时间依赖性变化,这些变化因消化酶的类型和解离的孵化温度而异。
几种组织固有和细胞固有的特征也会影响解离过程中的细胞组成。组织中的化学物质,如胃酸、胆汁酸以及肠道和胰腺酶,可以直接溶解细胞并在分离过程中降解RNA。难以分离的粘附细胞,如成纤维细胞、带有伪足的大细胞,如巨噬细胞和脂肪细胞,以及短命细胞,如中性粒细胞,在解离过程中容易被遗漏或过滤掉。酶消化还会降解细胞表面抗原,从而降低流式细胞术和其他相关方法(如CITE-seq和REAP-seq)在检测时的抗体介导的可检测性。
为了减少这些解离偏差,已经开发了实验策略,但它们也引入了新的混杂因素。单核RNA测序(snRNA-seq)从冷冻和难以解离的组织(如神经元和神经胶质细胞)中分离核RNA。然而,从不同的生物体、组织和感兴趣的细胞中分离核仍然需要定制化的方案,以最小化解离偏差。核分离用于转录分析容易受到环境RNA的污染,并且排除了关键的细胞质转录本,包括参与小胶质细胞激活的转录本、在处理体中存储的调节性RNA,以及在有丝分裂期间的核RNA(当细胞缺乏核膜时)。化学固定可以立即保存感兴趣的组织的细胞和转录内容,但它也会破坏细胞及其内容的超微结构,使得进行全转录组测序变得具有挑战性。10x Genomics Flex Kit(https://go.nature.com/4crkIB3)使用预定的探针集从固定组织中提取RNA,用于小鼠和人类。尽管这种协议最大限度地减少了样本处理和技术批次对数据质量的影响,但RNA定量仅限于策划的基因组区域,并且单细胞核的解离仍然容易受到细胞组成的扭曲。ST将在下面详细讨论,它可以在不解离的情况下保留细胞的组织环境,可能提供更具生理代表性的结果。
减少样本准备时间,优化消化缓冲液,并为这些预处理步骤制定标准,对于最小化实验变异至关重要。使用计算工具对技术协变量进行事后校正,如下所述,可以提高scRNA-seq数据的生物学相关性,但它并不能取代认真注释预处理变量和设计对照组以准确消除混杂因素而不减少生物学信号的需要。
样本整合和批次校正
在涉及多个样本的单细胞实验中,样本之间的技术协变量可能会掩盖感兴趣的生物学差异。如上所述的样本准备和处理的变化,以及与测序相关的因素,如库大小、PCR周期和测序仪器,可能会在数据中引入人为因素,导致单个细胞更多地根据技术批次而不是生物学相似性进行聚类。与样本相关的其他因素,如被采样个体的年龄、性别和祖先,或者特征的异质性,如细胞周期阶段或线粒体RNA含量,可能会掩盖感兴趣的生物学变量。已经开发了许多计算方法来校正批次特异性变化,同时旨在保留真实的生物学信号(表1)。
ComBat和limma是用于微阵列和批量RNA-seq数据的流行的线性调整模型,但它们在应用于scRNA-seq数据时面临挑战,因为数据稀疏性和批次间细胞组成的变异性。这种限制促进了诸如相互最近邻(MNN)方法的发展,该方法识别跨批次的相似细胞邻域,并利用这些对齐来整合批次和校正基因表达数据。为了加快跨批次的搜索和提高对噪声的鲁棒性,可以将基因表达轮廓降低到低维嵌入中,使用如主成分分析(例如,fastMNN、BBKNN、Harmony)、奇异值分解(例如,Scanorama)、集成非负矩阵因式分解(例如,LIGER)或典型相关分析(例如,Seurat)等方法,更有效地识别和对齐相似的细胞。这些方法可能需要大量的用户输入和参数调整,因此鼓励先验知识和试验性策略,而不是过度依赖默认设置,以获得最佳结果。尽管数据整合工具改进了可视化、聚类和轨迹构建,但有效和准确地校正原始高维基因表达数据矩阵仍然是一个挑战。通常不建议对批次校正计数的基因表达水平进行分析,因为存在消除真实生物学差异(称为“II型错误”)的风险,同时在数据中引入虚假的差异表达基因(称为“I型错误”)。
替代策略已被提出,用于在多个样本之间进行比较。Pseudobulk分析将单个细胞的基因表达汇总到组级别值,将每个样本视为一个重复。这最小化了稀疏性、噪声和单细胞间共线性的影响,但忽略了细胞群内的异质性、细胞丰度和批次间变异性。协变量和混合效应建模是估计不同因素对单细胞基因表达数据影响的替代方法。非参数方法,如Wilcoxon秩和检验,不假设潜在分布,但通常限于简单的实验设计和两组比较。在批次包含病例和对照样本或在样本内而非跨样本进行差异基因表达分析的情况下,跨组的基因水平统计的元分析是一个合理的策略。无需聚类策略也已出现,它们识别跨批次的不同细胞状态,无需预先定义细胞亚群。
基于神经网络的技术已被证明可以提高在低维嵌入空间和原始基因表达空间中对齐大量批次的可扩展性和速度。这些多任务技术可以有效地在集成和校正的空间中执行数据标准化、聚类、降维和差异基因表达分析。正如最近的预印本报告所显示的,批次校正方法有过度校正和消除数据集中所需生物学信号的风险。保留生物学信号的一个策略是使用半监督方法,这些方法可以由细胞注释信息。半监督深度学习方法,包括scANVI和scGEN,被证明在批次校正和保留生物学变异方面优于无监督方法。
计算工具本身可能不足以完全区分生物学信号和混杂变量。标准化scRNA-seq实验设计和积极纳入技术对照组,从中可以学习批次效应并应用于案例(例如,“pool-of-controls”),以准确模拟跨样本变异。
构建大型单细胞图谱
近年来,由于几个大型细胞图谱项目涵盖了许多组织和生物体,我们已经见证了转录分析的单细胞数量和多样性的指数级增长。值得注意的是,这些1.28亿或更多的单细胞转录组中有大约80%是在过去的3年中测序的,涵盖了至少190种组织和76个物种。
这些图谱创建项目的最终目标是构建一个经过注释的、公开可访问的细胞类型和状态的字典,可以作为细胞标记、转录签名、疾病关联和假设生成的参考。尽管最近取得了进展,但在质量控制和跨不同样本处理和测序模式的数据整合方面仍然存在挑战。为了解决这些问题,正在进行大规模的努力,以使单细胞实验和计算工作流程标准化,特别是通过人类肿瘤图谱网络(Human Tumor Atlas Network)对肿瘤样本进行标准化。
存在多种策略使用参考数据注释单细胞数据,包括marker基因检测、基因集富集分析、基于相关性的方法、通用分类器和最大似然估计器等(表1)。大型语言模型,如GPT4,可以轻松地基于用户提供的marker基因提示链对细胞进行注释。使用深度学习模型的迁移学习策略也在开发中,以将注释从单细胞参考映射到小规模scRNA-seq数据集,并发现疾病特异性细胞状态,例如在COVID-19和特发性肺纤维化患者中。单细胞参考策划的挑战包括需要更详细的细胞级和样本级注释,建立一个统一的细胞状态本体,涵盖各种组织、器官和疾病条件,以及精确对齐查询数据集与条件匹配的参考图谱。
在人类参考图谱中,必须特别注意确保包括广泛的人口统计因素,如年龄、性别和/或性别、种族和民族,以及多样的生理状态和病理条件。为了促进在查询数据集中发现新细胞类型,还必须注意避免不恰当地将细胞与现有细胞标签对齐。一个可能的选择是,如果无法将细胞有信心地分配到任何已建立的参考细胞类型,则将其分配到一个“新颖”类别。
识别罕见和微妙的细胞状态
scRNA-seq的主要目标之一是识别在批量样本中无法检测到的罕见和微妙的细胞群体。尽管scRNA-seq已经导致了组织驻留干细胞和祖细胞、疾病免疫驱动因素和肿瘤细胞谱系状态的发现,但当前的实验和计算方法在识别罕见和微妙的细胞状态方面仍然面临许多挑战。如前一节所讨论的,苛刻的解离条件可能会消除脆弱的细胞或诱导与细胞状态相关的应激相关变化,导致预处理步骤中丢失罕见和微妙的细胞群体。例如,标准解离协议会诱导独特的应激反应并激活静止的肌肉干细胞,导致静止干细胞群体的表征不佳,并将这种解离伪影误分类为新的细胞状态。
能否识别罕见和微妙细胞状态的另一个主要因素是它们在整体研究人群中的频率,以及测序的细胞数量是否足以检测到它们。例如,组织驻留干细胞非常罕见,即使对未纯化的组织进行大规模scRNA-seq,如果没有针对性的富集策略,也可能错过这些细胞。例如,Hoxb5基因的表达标记了具有高再生能力的一小群小鼠长期造血干细胞(LT-HSCs)。Hoxb5表达(Hoxb5+)LT-HSCs在骨髓中的估计频率为0.001%,因此在没有预先富集的情况下,从小鼠骨髓中分离出10个Hoxb5+ LT-HSCs大约需要一百万的有核细胞。通过富集特定的细胞表面标记物,如KIT和SCA-1(也称为淋巴细胞抗原6A-2/6E-1),同时耗尽表达成熟细胞表面标记的细胞,Hoxb5+ LT-HSCs的频率提高了1000倍,显著增强了它们在scRNA-seq数据中的可检测性。其他scRNA-seq研究干细胞也类似地利用了细胞分布的已知生物学特征,如表面标记物、解剖位置和胚胎阶段,来分离和功能验证人类神经和骨骼干细胞。
识别罕见和微妙细胞状态通常取决于检测细胞周期、分化轨迹或代谢状态中的适度但可重复的差异。为此,基于微孔板的全长测序,尽管比基于液滴的短读长测序成本更高、耗时更长,但它提供了来自单个细胞的更深入、更广泛的RNA捕获(图2d)。此外,全长序列提供的较低的dropout率和准确的读取估计保留了细胞之间微小但至关重要的转录差异。最近在基于微孔板板的技术方面的进步,如MAS-seq和VASA-seq,已经将转录组覆盖范围扩展到非编码和选择性剪接的转录本异构体,这些异构体揭示了在肿瘤浸润性T细胞分化和小鼠发育过程中罕见转录本的异质性分布。
在捕获候选细胞及其转录本之后,将解析单细胞转录组以找到指示生物学异质性的关键特征(表1)。适当的特征选择对于识别罕见或微妙的细胞状态至关重要,因为在这一步中省略关键标记基因可能会损害细胞状态的发现。许多分析流程使用分散度,或基因表达水平在数据集中单个细胞间的变异性,来优先选择基因。然而,这些措施可能会被无关的协变量所偏斜,并且对来自罕见或微妙不同细胞状态的生物学信号不敏感。在过滤高分散度基因后,各种计算工具应用层次聚类(例如,RaceID)、密度测量(例如,FiRE)或簇间距离(例如,GapClust)来发现罕见或微妙的细胞状态。
其他特征选择策略已被使用,然后与各种下游聚类策略结合,以识别罕见或微妙的细胞状态。例如,GiniClust基于基尼系数选择罕见细胞基因,基尼系数衡量细胞间基因表达的不平等。CellSIUS通过生成高度相关的基因集,具有双峰分布和在预定义簇中的不同表达,来执行特征选择。scPNMF使用投影非负矩阵因式分解(NMF)来揭示细胞和基因表达模式,也使用相关性筛选和多峰分布来选择生物学相关的基因。需要注意的是,当同一数据用于聚类之前的差异表达分析时,错误发现细胞状态标记的风险增加。因此,已经开发了统计方法与上述工具一起使用,以识别更具生物学相关性的标记基因。
深度生成模型,如scLDS,也在开发中,它可以灵活地学习数据集中单个细胞的分布,并使用可解释的分类器来推断罕见细胞。尽管如此,数据集在大小、批次和条件的复杂性和多样性方面提出了在跨样本数据整合和校正后识别罕见细胞状态的重大挑战。SEAcells使用自适应高斯核来捕获主要的变异源,然后在降维图上应用原型分析来识别生物学上一致的细胞群或元细胞。
随着越来越多的细胞状态在单细胞数据集中被注释,通过证明它们在scRNA-seq实验中的一致性并通过实验室环境中的功能重现来验证这些细胞状态定义变得至关重要。正如下一节详细讨论的,空间测序为在原生微环境中对新细胞状态进行情境化提供了新的机会,并利用空间特征来改进细胞分类。
追踪单细胞经历生物学转变
scRNA-seq分析使得我们能够精确地描绘细胞在动态生物学过程中所经历的转录路径,例如发育、分化、细胞周期,以及对基因组和代谢扰动的响应。使用转录数据预测研究中单细胞在一系列过渡细胞状态中的相对顺序是一个主要的生物学挑战。已经开发了几种计算和基因组方法来预测不同生物学过程中单细胞的顺序(表1)。这些方法中有一小部分专注于从单细胞转录组数据中预测细胞的可塑性,或者说是单细胞发展成其他细胞的潜力。
轨迹推断工具
已经开发了许多计算方法来推断细胞轨迹(图3a)。这些轨迹推断工具大多涉及生成低维嵌入,并通过基于图的方法或基于聚类的方法确定的节点来描绘路径。轨迹推断工具是模块化的,主要在降维、聚类和轨迹建模的方法上有所不同。有关这些方法的广泛基准测试和全面讨论,请参阅参考文献104。
随着数据集在规模和复杂性上的增长,出现了几个挑战。轨迹推断工具容易受到降维和聚类中不希望的协变量的影响,并且它们依赖于准确的数据整合和批次校正来绘制跨多个样本的轨迹。在大型、异质性数据集中,可能同时参与不同动态过程的多个细胞谱系(例如,细胞周期和分化)。轨迹推断工具应该能够将这些复杂的数据集简化为其生物学部分,并绘制不强制连接不同谱系或静态状态的无关细胞的轨迹。这些方法还需要用户大量参与和参数调整,以确定最优轨迹并确定动态过程的起始或终止状态。
已经开发了几种方法来无偏地确定转录演变的方向(图3b)。RNA速率分析通过比较新转录的前mRNA和成熟的mRNA来估计细胞转换的速率和方向;protaccel另外结合了蛋白质速率,当有多组学数据可用时,可以提供更丰富的细胞状态动态洞察。通过使用NASC-seq和scSlam-seq对新合成RNA进行代谢标记,也可以直接测量类似的分子动力学。这些工具可以捕捉到短时间内发生的细胞转换(分钟到小时),但在捕捉长时间尺度(天到月)的发展轨迹时不太可靠。
整合表观基因组和蛋白质组数据也可以改善轨迹特征,并根据染色质可及性和蛋白质表达引导细胞转换的方向。最终,通过单细胞分辨率条形码进行的谱系追踪提供了细胞转换序列的真实信息(图3c)。可以使用工程基因组标签(例如重组事件、病毒整合、基于CRISPR的条形码或自然标记)来实验性地追踪单个细胞。
测量细胞可塑性
细胞可塑性是指细胞可以采取的潜在命运多样性,独立于基因组改变。它是正常细胞对疾病反应(例如,感染中的多样化T细胞状态)的关键特征,也是癌细胞在肿瘤发生和治疗逃避中的适应。已经开发了几种计算方法来使用单细胞转录组数据量化细胞可塑性(表1)。
可塑性可以被概念化为低维嵌入中的一个概率过程,其中任何给定细胞到达图中定义的终点的概率可以用来估计潜力(图3d)。Palantir、VIA和MARGARET是推断复杂拓扑结构、识别终点并使用马尔可夫链模型根据其到达定义终点的可能性为每个细胞分配概率的方法。具有到达每个终点相等概率的细胞被认为比那些概率倾斜的细胞具有更大的潜力。FateID通过利用在预定义终点上训练的随机森林分类器来计算转换概率。GpFates将细胞命运建模为重叠高斯过程的混合,STEMNET将命运测量为广义线性回归模型,其中系数权重代表对预定义终点的贡献。应用于单时间点收集的scRNA-seq数据的方法的一个主要缺点是它们依赖于对细胞转换的起始和终点的先验知识。CellRank通过利用RNA速率和CytoTRACE(下文讨论)等无偏工具来推断细胞状态的起源和目的地,然后应用马尔可夫链模型计算命运概率,从而改进了这一点。在时间序列数据中,可以使用Waddington-OT计算命运概率,它将细胞转换建模为最优传输问题。TrajectoryNet使用类似的最优传输方法,推断细胞在时间点之间的连续非线性轨迹。
细胞可塑性也可以作为主调控基因及其下游表达网络的函数来研究。CellOracle利用从单细胞多组学分析中获得的基因调控网络知识,执行体外转录因子扰动,并展示命运变化。
测量发育潜力
发育潜力是可塑性的一种类别,它衡量细胞产生更分化细胞的能力。具有产生整个生物体能力的细胞,如合子,具有最高的发育潜力,而终末分化的细胞,如中性粒细胞,具有最低的发育潜力(图3e)。发育潜力是干细胞和祖细胞在组织生长、稳态和再生期间的标志。因此,这一领域计算工具的目标是预测单细胞在从最不专业化到最专业化身份和功能的连续体上的分化(表1)。
预测发育潜力的一个策略是测量早期胚胎发育期间活跃的转录程序(图3e)。这些工具的例子包括ORIGINS,一个来自基因本体“细胞分化生物学过程”的蛋白质-蛋白质网络;mRNAsi,一个在多能干细胞的基因表达数据上训练的逻辑回归模型;和PluriNet,一个与多能干细胞共享的蛋白质-蛋白质网络的基因集。然而,将这些模型应用于胚胎后发育过程,假设在胚胎干细胞中维持多能性相同的程序也控制着成人正常和肿瘤细胞中的可塑性。FitDevo通过训练一个从包括胎儿和成人细胞的数据集学习到的广义线性模型来扩展这一范围。
单细胞分析还表明,染色质可及性和转录多样性是发育潜力的替代测量方法(图3e)。直观地说,在整个基因组中广泛表达的细胞倾向于比那些转录多样性有限的细胞具有更高的潜力,以转变为不同的下游细胞状态。CytoTRACE展示了一个简单的测量——单个细胞表达的基因总数——从受精卵到各种组织和物种的终末分化细胞重现了细胞发育。这种转录多样性与通过测序法测定的基因组范围染色质可及性相关。鉴于其在正常组织中发现较少分化细胞的表现,CytoTRACE被应用于人类乳腺癌数据,并鉴定了一个以GULP1表达为特征的肿瘤形成性腔前体细胞群。转录多样性也可以通过计算香农熵来量化,这是一种在数据中不确定性或随机性的流行测量方法。这些方法在计算香农熵的数据表示上差异很大,范围从整个转录组的熵,到最高度表达的基因,或一个策划的基因-基因网络,基因集-基因集网络或蛋白质-蛋白质网络。这些方法的几种变体已经被开发出来,以优化运行时间,并集成不同的网络分布测量。最近的一项预印本研究利用了具有时间点和发育注释的公开数据集,构建了一个灵活的机器学习模型,该模型学习scRNA-seq数据中的潜在特征,并进一步提高了预测发育潜力的性能。
空间转录组学
细胞存在于由细胞外分子、结构基质和邻近细胞组成的复杂微环境中,这些因素共同塑造了细胞的表型和组织的功能性特性。尽管scRNA-seq继续扩展跨广泛生物体和组织的细胞状态的字典,但它未能捕获滋养特定细胞身份的微环境的上下文。ST作为同时测量细胞感兴趣和其周围邻居的转录状态的方法出现。通过将单细胞生物学的范围从孤立的细胞扩展到多细胞邻域,ST揭示了不同组织和条件下细胞的反复和功能性组织。
表征细胞状态的空间排列
已经开发了多种方法来生成ST数据,这些方法在细胞分辨率、转录组覆盖范围、组织兼容性、成本、基础设施和商业可用性方面有所不同。使用荧光原位杂交(FISH)的方法,如Vizgen MERSCOPE、NanoString CosMx和seqFISH+,通过结合高分辨率成像和预先设计的探针的序列杂交,捕获数百到数千个转录本的亚细胞分辨率。其他基于探针的方法,如STARmap和10x Genomics Xenium,使用原位测序作为读出。由于这些方法目前需要创建定制的基因panel并验证特定基因的探针,因此它们在有先验知识选择感兴趣细胞状态的标记基因时最有用。可以从特定细胞类型或状态的已知标记中构建基因panel;或者,存在几种无聚类方法来选择最能捕获可比scRNA-seq数据集变化的基因(例如,SCMER和geneBasis)。
当细胞状态的兴趣未知或现有的基因标记未能区分罕见和微妙的细胞状态时,全转录组覆盖是理想的。一组我们称之为“批量ST”的方法在定义的样本区域执行全转录组测序,空间分辨率各不相同。这些包括激光捕获显微镜后跟批量RNA-seq(LCM-seq)和基于阵列的ST平台,如10x Genomics Visium、Slide-seq V2和Stereoseq,它们分别捕获直径为55µm、10µm和220nm的斑点的RNA,以及10x Genomics Visium HD,具有2µm平方的分辨率。虽然较小的斑点直径提高了单细胞分辨率,但这与转录捕获效率降低相抵消。与批量ST相反,已经开发了几种方法,这些方法在空间条形码之后进行组织解离和scRNA-seq。这些方法包括XYZeq、sc-Space和Slide-Tags,它们实现了高转录捕获效率,但以空间分辨率(分别为500µm、222µm和10µm)、解离伪影和组织采样不足为代价。
不同ST技术在不同组织和条件下的性能还有待全面评估。例如,几种ST检测已经在大脑中广泛测试,部分原因是由于现有的解剖和分子数据丰富,使得大脑特别适合ST。然而,并非所有组织在参考图谱中都有同等的代表性,研究缺乏强大细胞图谱注释或一致解剖结构的组织(如肿瘤组织)可能比较困难。某些组织也可能带来更大的技术挑战,例如高自发荧光、寡核苷酸扩散不均、降解RNA的化学物质浓度高,或者由于其材料属性(如骨骼)难以切片的结构。设计ST实验时还有许多其他考虑因素,我们建议读者参考有关此主题的其他评论。
使用计算工具克服技术障碍
已经开发了几种计算方法来解决ST技术的固有限制,包括细胞分辨率、转录覆盖范围和独立样本的对齐(表1)。例如,一种常见策略是使用具有匹配的生物学和实验特征的参考scRNA-seq图谱来提高ST分辨率或转录覆盖范围。为了解决空间转录组学技术固有的局限性,包括细胞分辨率、转录覆盖范围和独立样本的对齐(表1),已经开发了几种计算方法。例如,一种常见的策略是使用具有匹配的生物学和实验特征的参考scRNA-seq图谱来提高ST分辨率或转录覆盖范围。尽管标准的批量RNA-seq去卷积工具可以应用于批量ST,但已经开发了专门工具,利用scRNA-seq数据来剖析空间斑点,要么分解为细胞类型特异性的分数(例如,cell2location、RCTD),要么分解为单个单细胞转录组(例如,CytoSPACE、Tangram和CellTrek),要么分解为亚斑点或像素级表达(例如,BayesSpace、XFuse、TESLA和iStar),或者推断细胞类型特异性的表达谱(ST去卷积)。批量ST去卷积方法的应用场景包括发育生物学、肠道生物学和肿瘤生物学等。最近的研究表明,使用深度学习方法将组织学与ST数据整合可以增强ST去卷积工具的空间和表型分辨率。
对于基于探针的ST,通常在单细胞分辨率下测量转录组的子集,存在几种方法可以估算未测量基因的表达。此外,最近的基准测试表明,通过将scRNA-seq与ST数据整合,然后平均最近scRNA-seq邻居的基因表达来估算基因表达,scRNA-seq批次校正技术可以实现与整合scRNA-seq与ST数据然后对ST细胞进行平均一样的竞争性能。
另一个关键的计算挑战是从多个2D ST样本构建连贯的空间图谱,这些样本要么来自相邻组织,要么跨越时间序列。可以根据正在注册的模式、组织切片变形的程度或个体之间组织结构的变化选择合适的ST对齐方法。对齐方法也可以用来将2D ST数据整合到公共坐标框架中,当它们存在时,甚至可以(大致)对齐来自相似解剖区域的不同个体的2D切片。
通过比较多细胞邻域发现反复出现的空间组织
将单细胞研究扩展到相互作用细胞的多细胞中心正在提高我们对包括细胞可塑性、命运决定和肿瘤免疫学在内的广泛生物学机制的理解。尽管组织学结构为ST分析提供了起点,但它们可能无法详细分析细胞微环境如何决定其表型。
由一个细胞及其局部微环境组成的多细胞邻域是ST数据分析的基本单元。多细胞邻域应以数据驱动的方式定义,考虑技术和研究现象的规模(见图4a中的“生物信息学工作流程”)。在批量ST数据的背景下,多细胞邻域可以被定义为阵列中的一个单独斑点、一个“元斑点”(一个斑点及其最近邻域),或者是一个或多个空间斑点的去卷积结果。对于单细胞分辨率的ST数据,许多定义多细胞邻域的方法使用固定半径(50-200µm)、固定数量的邻近细胞(10-200个最近邻域)在2D或3D空间中,或者由Delaunay三角剖分定义的邻域。
选择适当的特征集来表征多细胞邻域是一个数据依赖和应用依赖的过程(见图4a)。对于批量ST,如果每个斑点被认为是一个多细胞邻域,那么斑点的基因表达值是下游分析如聚类的自然特征。对于单细胞分辨率的ST数据,多细胞邻域可以通过其组成来表示,即预先定义并使用已知标记选择的细胞类型和状态。这种方法在空间蛋白质组学中很常见,具有表达力,可以识别组织学上不同的区域,识别组成上不同的区域,这些区域表现出不同的细胞间信号模式,捕捉不同淋巴器官之间组织架构的相似性和差异性,并识别与回顾性癌症队列中的治疗结果相关的多细胞邻域模式。其他策略通过对细胞进行加权平均来表示多细胞邻域,利用诸如加权平均、基因-基因协方差矩阵或深度学习等方法(见图4a中的“深度学习使能工作流程”)。
使用基因表达值分析多细胞邻域可以自动化识别参考数据集中不存在的细胞类型或依赖上下文的转录状态。此外,基因表达适合空间数据中的细胞-细胞相互作用分析。包含基因表达状态的表示可以编码比细胞类型频率更复杂的信息,使研究人员能够区分具有相似细胞类型组成的细胞群落。例如,通过联合考虑结构内细胞的转录状态、细胞组成和空间组织,可以准确确定三级淋巴结构的成熟状态(图4b、c)。基因表达的一个潜在缺点是批次效应的存在,其中多细胞邻域主要根据技术协变量(例如样本)而不是生物学特征进行分离。在深度学习分析中,这种效应已经在过度拟合模型中观察到,这些模型是针对表达特征训练的。在这种情况下,存在各种策略来减轻批次效应,例如在多细胞邻域分析之前预先应用数据整合工具,或者如最近的预印本所示,一种新兴策略是使用深度学习同时嵌入多细胞邻域并进行数据整合。
创建多细胞邻域的表示后,一个重要的目标是识别跨空间域、样本或个体的反复出现的细胞状态社区(图4a)。我们将反复出现的多细胞邻域表型,其特征是相关细胞状态,称为“空间生态型”。这一概念借鉴了生态学中“生态型”作为空间依赖的物种亚群的概念,以及引入“生态型”一词用于肿瘤微环境中相关转录状态的工作。转录生态型和空间生态型的定义也与“多细胞程序”相吻合,这是在多个样本或空间区域中共同关联的不同细胞类型的转录状态集。这些研究和其他研究共有的基本见解是,通过确定在许多独立样本或空间区域中频率相关的细胞状态,可以识别相关的细胞状态。
空间生态型和相关的反复出现的多细胞邻域的概念在癌症研究中特别有用,它们可以应用于在缺乏明确组织学特征的情况下识别反复出现的表型。例如,在皮肤鳞状细胞癌的个体队列中,肿瘤特异性角质形成细胞状态定位于多个样本中肿瘤-基质界面的多细胞邻域。在跨多个乳腺癌样本整合的多细胞中心的研究中,丰富的FGF2+调节性T(Treg)细胞沿着FGF2受体梯度,表明Treg细胞浸润在这种情况下参与了肿瘤微环境的结构。
空间表征表型转变
当细胞经历表型转变时,识别其多细胞邻域的组成和基因表达的伴随变化将为理解支持动态细胞过程的机制提供新见解。这一挑战在多种生物学例子中出现,包括干细胞向祖细胞和后代细胞的分化、免疫细胞对刺激的激活,以及癌细胞的克隆进化。
这些分析属于空间轨迹分析的范畴(表1)。可以将scRNA-seq数据的轨迹分析转移到ST中对应的细胞,通过应用ST去卷积或批次整合方法;也可以直接在ST数据上执行轨迹分析,尽管当前ST检测的技术限制(低转录捕获或缺乏单细胞分辨率)可能会影响结果的有效性。最近对ST数据的轨迹分析在非空间方法的基础上,使用各种技术策略来鼓励“空间一致性”(在空间上邻近的细胞在轨迹中有相似的位置)。然而,对多细胞邻域的表型轨迹进行建模仍然是一个挑战,无论是在独立样本内还是跨独立样本。
最后,可以使用基因组标记在空间数据中追踪克隆进化,例如线粒体DNA变体、拷贝数变化和遗传突变,当它们可用时。将详细的系统发育与ST数据结合起来,将能够进一步研究克隆进化在多大程度上影响表型转变。
临床应用
迄今为止,单细胞RNA测序(scRNA-seq)已被应用于研究超过103种不同的人类疾病,并已被纳入超过58项血液学、肿瘤学和免疫学临床试验。从患者样本中构建单细胞分辨率的大型细胞图谱,正准备促进向精准医学的转变,在精准医学中,特定细胞和转录本的存在和比例将指导疾病分类、治疗和预后。单细胞RNA-seq已经被用来阐明疾病进展和传播的机制,识别与不良结果相关的罕见或微妙的细胞状态,并揭示潜在的治疗弱点。例如,肿瘤微环境的单细胞分析揭示了在多种癌症类型中具有临床相关性的免疫和非免疫表型;它还使研究人员能够表征静止和治疗抵抗的癌症干细胞以及具有预后和可靶向特征的循环肿瘤细胞。单细胞转录组学还促进了对正常人类神经和骨骼干细胞以及祖细胞的描述,并为将干细胞分化到期望的细胞命运提供了高分辨率的路线图,以用于最终的细胞移植应用。
尽管最初是在小队列中发现的,但scRNA-seq的发现可以通过使用“数字细胞测量”从大量临床数据库中的混合RNA中解卷积细胞组成来进行外部验证和大规模测量。实际上,直接在临床中使用scRNA-seq受到成本、标准化和组织解离伪影等其他因素的限制。然而,scRNA-seq可以优先考虑用于评估已经在临床环境中可用的更简单检测的转录本、细胞状态和蛋白质,例如免疫组织化学、FISH、流式细胞术和多基因面板测序。
空间转录组学(ST)也在发现临床上相关的空间定义的细胞状态和生态型方面发挥着类似的作用,然后可以通过更简单的检测来总结,以指导临床决策。空间生物标记已经显示出与多种癌症(包括脑、乳腺、结肠和肺癌)的临床结果和治疗反应相关。与口腔鳞状细胞癌肿瘤边界和非小细胞肺癌上皮-间质转化相关的两个空间生态型的基因表达签名分别预测了大型保留的批量RNA-seq队列中的生存率。PD-1+ T细胞和PD-L1+髓细胞之间的空间免疫相互作用模式为结直肠癌中的免疫逃逸提供了见解。技术进步使得scRNA-seq和ST能够应用于石蜡包埋组织,这使得能够回顾性分析存储在生物库中的临床样本。像人类蛋白质图谱这样的大型努力正在创建平台,通过整合蛋白质、转录组和地理空间特征以及生物学和临床注释来发现生物标记。
人工智能与单细胞转录组学的未来
随着单细胞和空间组学数据的深度、规模、分辨率和复杂性不断增长(例如,通过引入多组学能力),人工智能(AI)的并行飞跃预示着机器辅助单细胞生物学的新时代(图6a)。在这篇综述中,我们包含了深度学习方法在单细胞转录组学中实现最新性能或使以前无法进行的分析成为可能的分析场景。深度学习在单细胞转录组学中的兴起得益于数据可用性的增加、新模型架构的开发(例如,变换器和视觉变换器),以及使非专家能够训练、应用和解释深度学习模型的软件。深度学习可以根据不同模型架构(例如,卷积神经网络和图神经网络)或训练框架(监督或无监督)应用于多种问题。例如,监督方法可以预测微妙的分子或空间模式对治疗结果的差异,而无监督方法可以在不需要手动批次校正的情况下发现不同数据集之间的共享生物学特征。深度学习模型的性能对“超参数”的选择非常敏感(包括模型的深度和维度以及训练过程的确切细节)。因此,由训练有素的模型组成的方法是有利的,因为它们消除或减少了进一步超参数调整的需要。
基础模型最近在单细胞转录组学研究社区和更广泛的领域引起了相当大的兴趣。基础模型是在大量未标记数据上训练的深度学习模型,旨在为下游应用形成“基础”,要么在没有任何额外训练的情况下应用,要么使用少量标记数据进行“微调”,以使模型适应特定任务。单细胞转录组学的基础模型通常在许多数据集上进行训练。
在单细胞转录组学分析中使用基础模型的一个假设是,这些模型自动学习将来自不同平台、组织和条件的scRNA-seq数据组织成一致的嵌入(图6b和表1)。在基础模型嵌入中,研究人员可以搜索其他数据集中与输入细胞相似的细胞,进行数据整合,将标签(如细胞类型或状态)从标记数据集转移到未标记的数据集,或者预测扰动对细胞转录状态的影响(图6c和表1)。另一个假设是,在大量未标记数据上预训练模型可以提高其从少量标记数据中学习的能力,尽管并非所有模型都实现了这一点。正如最近的预印本所建议的,这些嵌入空间在多大程度上捕捉到生物学信号仍然是一个开放的问题,这些嵌入空间对训练数据中某些组织或疾病状态的过度表示的敏感性还没有得到系统的解决。嵌入模型可能无法捕捉细微的生物学信息,特别是对于在训练数据或用于微调的数据中代表性不足的细胞,而对于生成模型,另一个担忧是它们倾向于“幻想”出没有现实世界对应物的结果。正在进行的努力复制已发表(或预印本)的基础模型,将它们与黄金标准进行基准测试,并实施防护措施以防止或至少识别潜在的幻觉,对于评估它们的能力以及建立它们对各种下游应用新数据集的泛化至关重要。
随着ST数据的相对缺乏组织良好的大规模图谱,ST基础模型的开发变得复杂。最近的预印本报告了在scRNA-seq和ST数据上训练单细胞基础模型的工作。这项工作表明,基础模型嵌入编码了单细胞的微环境上下文信息;类似的模型可以被训练来明确地结合ST数据和scRNA-seq的转录数据中的微环境上下文(例如,通过使用多种技术特定的解码器),这可能使得空间感知的基础模型能够为scRNA-seq数据插补多细胞邻域。与scRNA-seq一样,ST基础模型可能会受到不平衡训练数据的影响;ST数据的另一个挑战是探针基础ST的普遍性,其中面板偏向于当前ST面板中过度表示的特定基因。这可能会掩盖通过关注ST面板中过度表示的基因所涉及的途径来调节的广泛空间转录状态的规则。
我们还预见到空间分辨的扰动模型作为现有单细胞扰动模型的扩展将得到发展。这些模型将使研究人员能够在模拟环境中测试微环境扰动的影响,包括组合扰动。能够为依赖于上下文的细胞状态的微环境决定因素制定因果假设,可能会彻底改变我们对干细胞生态位到免疫系统功能和功能障碍背后的细胞间相互作用的理解。
尽管深度学习模型通常能够实现无与伦比的性能,但理解驱动模型预测的因素(包括细胞状态、基因集、空间生态型、原始文献、数据库或规则(例如,组合和互斥性))可能具有挑战性。这些问题属于机器学习社区中日益活跃的研究领域——模型可解释性。可解释性不仅对于发现新生物学至关重要,而且对于建立信心和信任,特别是在临床环境中至关重要。
结论
单细胞转录组学和空间转录组学技术正在彻底改变我们对复杂组织中细胞状态起源、调节和维持的理解。通过精心的实验设计和策略性地利用计算方法,研究人员可以充分发挥scRNA-seq和ST数据的潜力,以揭示各种情境下的关键细胞状态和多细胞群落。尽管数据分析存在固有挑战,但迅速出现的实验和计算工具,以及像人类细胞图谱、人类蛋白质图谱和人类肿瘤图谱网络这样的大型合作努力,正在促进这些细胞状态在更广泛的人类健康和疾病谱系中的情境化。随着大量的基因组、空间和时间数据正在被整合到来自不同组织、物种和条件的单细胞中,我们才刚刚开始揭开细胞的奥秘。