前言
单细胞RNA测序(scRNA-seq)技术的广泛应用显著深化了我们对复杂组织和细胞异质性的理解。随着测序技术不断进步,我们可以同时获得越来越多的细胞测序结果,从而形成了庞大的数据集。然而,这些大规模的数据集也带来了新的挑战,如处理时间的延长和对计算资源的要求增加。此外,基于转录组的调控网络仍然是研究疾病发生和发展机制的重要工具。由于dropout事件、扩增偏差以及测序深度等因素的影响下,scRNA-seq数据基因表达值通常呈现出高度稀疏且嘈杂的特点,这限制了相关性分析指标(如Pearson、Spearman、Cosine相关性和细胞通讯等)在构建基因调控网络时的有效应用。
针对上面提到的问题,我们今天就来介绍一款用于处理大规模单细胞RNA测序数据集分析工具:bigSCale。bigSCale很大程度上解决了上述问题,不仅允许处理极大的单细胞数据集(百万级),而且开发了专门针对单细胞数据的相关性度量从而推断基因调控网络,非常值得我们学习。
主要内容
- bigSCale的分析框架
首先,让我们来了解一下bigSCale的分析框架。为了定义细胞之间表型距离,bigSCale构建了一个概率模型。不同于其他方法,其他方法可能假设负二项式、Gamma或Poisson分布在简单或混合概率模型中,bigSCale采用了一个高度准确且全面的噪声数值模型。这个模型量化了细胞之间的距离,从而为差异表达分析和细胞聚类提供了基础。
在生成模型时,bigSCale将具有高度相似的转录组特征的细胞分为一组,然后使用组内的表达变异作为噪声的估计值。bigSCale模型化的是表达水平之间的差异,而不是表达水平本身。最后,bigSCale为每个基因分配一个P值,代表从一个细胞到另一个细胞的表达变化的可能性。
在差异表达分析中,bigSCale会为每个基因分配一个P值,该P值代表了该基因在两组细胞之间表达变化的可能性。为了得到这些P值,bigSCale会对两组细胞之间的所有成对细胞进行比较。当一个基因在多个细胞之间表现出差异表达时,它将累积更高的得分,然后这些得分会进行调整和归一化,从而得到最终的P值。这些P值鉴定了哪些基因在不同细胞组之间可能会发生显著的表达变化。
细胞聚类是,bigSCale选取在整个数据集中表现出高度变异性的基因使用Ward’s linkage获取细胞聚类结果。
在鉴定细胞簇后,bigSCale使用迭代差异表达分析来检测差异表达的标志物,这些标志物是由在不同细胞种群中表达不均匀的基因定义的。相比于其他现有工具,bigSCale可以以有序的层次结构展示细胞的多样化表型,从细胞类型到亚型或状态,通过逐渐增加的层次结构使用越来越高层次的标志物表示不同表型的复杂性。这使得bigSCale具备更好地理解细胞表型结构和分子特征的能力。
bigSCale能够直接处理数百万个细胞的数据。它通过将具有相似转录组信息的细胞汇聚(bigSCale的核心优势之一:定向卷积策略)成索引细胞(iCell)来加速分析过程。iCells是通过合并来自相似单细胞池的转录本计数而形成的,这样可以显著增加分子和基因计数,并提高表达特征的质量。这使得iCells能够更精确和敏感地区分不同的细胞亚群。同时,iCells保留了个体细胞的转录信息,并可以用于对目标人群进行分析。
接下来,作者将bigSCale与SCDE、Seurat、MAST、scDD、BPSC和Monocle2等软件在灵敏度、特异性和速度方面进行了比较。
结果表明,bigSCale在单细胞DE分析的灵敏度方面优于其他算法,并且与其他工具相比,bigSCale的DE分析速度是最快的。
- iCells分析大型单细胞数据
为了分析包含数百万个细胞的非常大的数据集,bigSCale将原始细胞进行卷积操作,转换成iCells,这些iCells具有在整个数据集上计算数值模型后改进的转录组特征。为确保卷积策略不会损害细胞表型和相关细胞聚类,作者通过分析2万个脑细胞来评估其性能。具体而言,作者在不同的聚类数目(n=2-32)和卷积程度(从4587个细胞增加到2101个iCells)下,测试了数据集中所有细胞对的聚类分配,分别在计算数值模型前后进行对比。通过Rand指数(RI)来定义聚类的相似性,该指数是适用于比较聚类评估的度量标准,其中RI = 100%表示完全相似的聚类。
结果显示,在原始数据集和卷积后的数据集之间,聚类结果高度相似,RI值大于80%。RI值在增加聚类数目或卷积程度时也保持稳定。此外,通过t-SNE可视化细胞,也证实了原始数据集和iCells之间聚类分配的高度相似性。
- 从大规模单细胞转录组学推断调控网络
为了解决单细胞数据固有的噪声和稀疏性的问题,作者提出了一种新的相关性度量方法,即Z得分相关性度量。Z得分是通过对细胞群之间的差异表达进行无监督分析得到的,可以消除噪声和技术伪迹的影响,从而更准确地检测基因之间的相关性。并且作者在这个过程中采用了递归聚类的方法,将细胞分成多个亚群,从而得到更多的相关性信息。因此基于Z得分计算的基因间相关性,作者构建了一个基因调控网络并对其进行了评估和应用。最后,作者采用图论工具对基因的生物学重要性进行量化,包括pagerank, betweenness, degree等。
作者在多个数据集上应用了该方法,并使用GO和MSigDB等方法验证了结果的准确性。通过对大规模数据集的验证,作者证实了推断的相关性是可靠的,并且在不同数据集之间具有一定的重复性。
小结
通过对bigSCale原理的学习,我们将其优势总结如下:
- 准确的建模:在使用不同的模拟数据集进行实验时,bigSCale在五个场景中的表现均优于负二项式和泊松分布。这表明bigSCale在处理单细胞RNA测序数据时能够更准确地建模和处理噪声,从而提高了其性能和准确性。
- 差异表达分析:bigSCale在差异表达分析方面具有快速和准确的性能。它能够在大规模单细胞数据集上进行高效的分析,成功识别出罕见的细胞群体。
- 细胞类型和亚群识别:bigSCale在细胞类型和亚群识别过程中发现了大量差异表达的基因,其中包括许多之前未被发现的基因。这些基因的表达模式对于各自的细胞群是高度特异的,证明了bigSCale在识别细胞类型和亚群方面的准确性。
- iCells:bigSCale的卷积策略可以在不引入人工因素的情况下减小数据集的大小。它通过将原始细胞转换成具有改进转录组特征的iCells,从而在处理大规模单细胞数据时提供了有效的方法。
- 构建单细胞调控网络:bigSCale单细胞调控网络可以识别器官功能的必需和特异性基因,帮助深入理解细胞功能和调控机制。
- 支持外部工具集成:bigSCale支持与外部工具的集成,用于进行额外的数据归一化。
好啦,本期推文到这里就结束了,我们将在后续的推文中为大家介绍bigSCale的代码实操,让大家可以更全面的了解到这个工具。
[参考文献]
Iacono G, Mereu E, Guillaumet-Adkins A, Corominas R, Cuscó I, Rodríguez-Esteban G, Gut M, Pérez-Jurado LA, Gut I, Heyn H. bigSCale: an analytical framework for big-scale single-cell data. Genome Res. 2018 Jun;28(6):878-890. doi: 10.1101/gr.230771.117IF: 7.0 Q1 . Epub 2018 May 3. PMID: 29724792; PMCID: PMC5991513.
Iacono G, Massoni-Badosa R, Heyn H. Single-cell transcriptomics unveils gene regulatory network plasticity. Genome Biol. 2019 Jun 4;20(1):110. doi: 10.1186/s13059-019-1713-4. PMID: 31159854; PMCID: PMC6547541.