前言
目前进行细胞轨迹分析的方法和软件非常之多,软件之间算法有什么差异?对于我们的分析结果有何影响?为了后续分析软件选择、分析不发愁,事半功倍,跟着小编来了解下!
01 拟时序分析背景及意义
在整个细胞生命发育过程中,细胞会从一种功能“形态”分化到另外一种功能“形态”。不同形态的细胞会表达不同的基因,以实现它们特定阶段的功能。当细胞在不同形态之间转变时会经历转录重置的过程(一些基因被沉默,一些则被重新激活)。由于通过纯化实验很难获取两个稳定形态细胞之间的中间态,因此这些细胞的中间形态通常难以表征。单细胞转录组测序无需纯化,基于数据分析,可以表征这些处于中间形态的细胞。
拟时间是对单个细胞在诸如细胞分化等过程中变化程度的度量。在许多生物过程中,细胞变化并不是完全同步的。研究发现单细胞分化等生物过程中细胞会分布在不同的分化阶段,在同一时期捕获的一组细胞中,有些细胞可能经历了分化过程中的几个阶段,有些可能尚未开始分化。拟时间是细胞分化进度的抽象单位,它是从细胞到轨迹起始点测得的最短距离,轨迹的总长度是根据一个细胞从起始形态到终止形态的转录变化总量来定义的。
02 拟时序分析软件——Monocle
Monocle(http://cole-trapnell-lab.github.io/monocle-release/docs/)是众多拟时间分析软件中比较流行的一款,它依靠一种叫做反向图嵌入的机器学习技术来构建单细胞轨迹。将每个细胞必须经历的基因表达变化作为动态生物过程的一部分进行机器学习,一旦获取到基因表达变化的整体“轨迹”,Monocle可以将每个细胞放置在轨迹中的适当位置,并通过差异分析模块获取在轨迹过程中受调控的基因。
Monocle 对于拟时间分析类软件必须要解决的问题做了如下处理:
第一个问题:如何选取基因集?
仅仅依赖于文献和教科书的“明星基因”,很有可能受到已有经验的限制,Monocle采用dpFeatuer方法构建基因集,即tsne/umap分群之后的差异基因。
第二个问题:如何排序?选取分支?
其是通过反向图嵌入方法来处理的,通俗来讲就是先降维,抓取主要特征,降低计算量;其次构建生成树,不断迭代直至收敛。选定一个节点作为根,每个细胞的伪时间计算为其沿树到根的最短距离,并根据主图自动分配其分支。
在拟时间推断方面,Monocle3沿用了Monocle2的迭代算法。值得注意的是,作者在Workshop、主页和相关文献中都着重指出,Monocle3是一个半监督式的拟时序分析工具,并没有内嵌合理且有效的起点算法,所以我们在使用Monocle3时,一定要凭借自己的生物学背景选定合适的起点!
03 拟时序分析软件——Diffusion Map
DiffusionMap (扩散映射)是一款由Laleh Haghverdi 团队开发的R软件,通过高斯模型和马尔科夫模型,把单细胞(scRNA)表达矩阵的非线性结构映射为连续性结构,并关联至对应细胞分组,这款软件是基于内在扩散样动力学识别细胞分化轨迹的方法。
软件开发团队也针对单细胞数据常见的零值、缺失值和采样密度异质性情况,对软件的计算模型和高斯kenralwidth 筛选进行了优化,确保在数据的遍历扩散过程是连续型的同时细胞之间的扩散距离仍然有较高的灵敏度。
Diffusion Map 具体数据计算示意图如下:
04 拟时序分析软件——PseudotimeDE
PseudotimeDE(https://github.com/SONGDONGYUAN1994/PseudotimeDE)使用子采样(subsampling)来帮助估计拟时序的随机性,通过广义可加模型(GAM)来拟合单个基因表达值和拟时序的关系,并使用置换检验(permutation test)来产生统计学上严格的p值。与现有方法相比,PseudotimeDE 在考虑伪时间推理的不确定性方面具有优势。PseudotimeDE不仅保证产生的p值有严格的统计学意义,还实现了更高的检验效力(power)和更好的对错误发现率的控制(FDR control)。
PseudotimeDE的统计方法由四个主要步骤组成:子采样、伪时间推断、模型拟合和假设检验(如下图)。前两步是在细胞水平上进行的,包括所有信息基因(其选择取决于假时间推理方法,例如 Slingshot 和 Monocle3-PI)),而最后两步是对每个潜在的DE基因进行的。
参考文献:
Cao, J., Spielmann, M., Qiu, X. et al. The single-cell transcriptional landscape of mammalian organogenesis. Nature 566, 496–502 (2019). https://doi.org/10.1038/s41586-019-0969-x.
Laleh H., Florian B., Fabian JT., Diffusion maps for high-dimensional single-cell analysis of differentiation data, Bioinformatics, Volume 31, Issue 18, September 2015, Pages 2989–2998, https://doi.org/10.1093/bioinformatics/btv325.
Song, D., Li, J.J. PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data. Genome Biol 22, 124 (2021). https://doi.org/10.1186/s13059-021-02341-y.