单细胞转录组测序数据分析之拟时序分析简介 - 简书 (jianshu.com)
定义
拟时序分析,即根据不同细胞亚群基因表达量随时间的变化情况,构建细胞谱系发育,但这里的时间并不是真时间,而是一个虚拟的时间,是指的细胞与细胞之间的转化和演替的顺序和轨迹。
为什么要进行拟时序分析
- 机体为响应各种应激,其细胞会从一种功能“状态”转变为另一种功能“状态”
- 当细胞在不同状态之间转变时,往往会经历转录重组,导致一些基因被沉默,一些基因被重新激活,但纯化这些瞬态细胞进行研究是很困难或不可能的
- ScRNA-seq拟时序分析可以让我们在不需要纯化的情况下查看这些细胞状态
分析工具
Monocle是使用算法来学习细胞状态转变过程中每个细胞必须经历的基因表达变化序列,一旦了解了基因表达变化的整体“轨迹”,Monocle就可以将每个细胞放置在轨迹中的适当位置。
分析结果解读
见原文
monocle2拟时序分析
- Monocle2是做单细胞拟时分析最有名的R包。
相较还在持续开发中的Monocle3来说,Monocle2更稳定且更倾向于半监督的分析模式,更适合针对感兴趣的细胞亚群做个性化分析。 - 伪时间是一个抽象的分化单位:它只是一个cell到轨迹起点的距离,沿着最短路径测量。轨迹的总长度是由细胞从起始状态移动到结束状态所经历的总转录变化量来定义的。
- Monocle引入了在伪时间(拟时间)内对单个细胞排序的策略,利用单个细胞的非同步进程,将它们置于与细胞分化等生物学过程相对应的轨迹上。Monocle利用先进的机器学习技术(反向图嵌入)从单细胞数据中学习显式的主图(展现细胞转录特征相似性关系的图,Monocle2使用DDTree降维图,Monocle3使用UMAP降维图)来对细胞进行排序,Monocle的机器学习算法可以依据上述降维图形,学习描述细胞如何从一种状态过渡到另一种状态的轨迹。Monocle假设轨迹是树状结构,一端是“根”,另一端是“叶”。一个细胞在生物过程的开始,从根开始沿着主干进行,直到它到达第一个分支。然后,该细胞必须选择一条路径,并沿着树移动越来越远,直到它到达一片叶子。一个细胞的假时间值是它返回根所需的距离。降维方面monocle与seurat的过程大同小异,首先进行数据标准化,其次选择部分基因代表细胞转录特征 ,最后选用适当的算法降维。这可以强大而准确地解决复杂的生物过程。
单细胞之轨迹分析-2:monocle2 原理解读+实操 - 简书 (jianshu.com)
monocle3拟时序分析
Monocle3原理——降维算法
Monocle3的拟时序分析既可以基于UMAP图谱也可以基于TSNE进行,但是作者Cole Trapnell更加推荐UMAP的方法,因为这种降维方式除了考虑细胞高度相似性之外还会将距离信息纳入考量。因此,Monocle3内嵌的降维方法是UMAP算法——构建一个近似结构和简单模糊修补的高维拓扑结构,再最小化交叉熵,将高维转化为低纬。首先,进行基因的筛选,表达不足10个细胞的基因会被筛除;其次,对数据进行标准化,中心化处理;而后,Top5000的基因被选入后续分析,使用偏奇值分解的算法提取矩阵重要特征,建立高维空间的中间结构。最后使用随机网格下降法将数据下嵌。对于已经整合注释的数据,Monocle3可以直接基于整合注释的降维图谱(UMAP或TSNE)进行分析。
基于图谱的轨迹推断拟时序分析工具——Monocle3 - 知乎 (zhihu.com)
monocle3与monocle2的主要区别
一篇通过monocle3完成拟时序分析的单细胞论文,题为Single-Nucleus RNA Sequencing Identifies New Classes of Proximal Tubular Epithelial Cells in Kidney Fibrosis
monocle3的缺点
目前monocle3已经更新到β版本了,作者在官网也承认了缺点[2],monocle3 α已经是不推荐使用的,可能会存在bug,但是monocle3 β仍然处于搭建中的状态,也就是说monocle3仍然是可能存在bug的,并且我们之前讲绪论的时候说到monocle1、2都发表在了Nature系列之上,但是monocle3迟迟没有发表,并且目前发表的文章还是使用monocle2的比较多,monocle3的不稳定性可能是重要原因。
monocle3相较于monocle2具有以下几点优势:
- 最大的优点就是计算量变大了,可以处理百万级别的单细胞数据集,也就是说整个器官、甚至整个胚胎的矩阵交给monocle3处理完全没压力。
- 代码结构性优化:这点我要吐槽一下,monocle系列的语法我一直觉得很奇怪,默认参数也很不人性化
- 支持UMAP算法的降维,这个也非常Nice,速度比tSNE快的不是一星半点。
- 支持多谱系的拓扑结构:换句话说拟时序的轨迹可以做的很复杂
- 相较于原来的RGE算法,新的approximate graph abstraction能够计算不连续的、平行的拓扑结构
- 新的基因表达量计算及差异分析方法被引入,也就是说原来的differentialGeneTest()和BEAM()可以被替代。
- 可以像Seurat的多样本整合一样对拟时序对象进行整合:这个功能可以说是刚需了,换句话说,如果你有合适的、已构建好拟时序的参考数据集,可以直接把自己的数据跟参考数据集进行投影、比对。
- 数据整合时也可同时加上注释:这有点类似于Seurat中的TransferData,可以利用已经注释好的参考数据给现行数据添加注释。
- 对monocle对象的读取、加载、转换做了一定的优化,我们后面可以看看效果如何
- 优化了负二项分布模型:也就是说对处理count的优化
- 可视化提供了3D展示功能
终于读到一篇用monocle3做拟时序的文章 - 知乎 (zhihu.com)
单细胞测序数据进阶分析—《拟时序分析》4.初识monocle3 - 简书 (jianshu.com)