在发育过程中,细胞会对刺激做出反应,在整个生命过程中,从一种功能性“状态”转变为另一种功能性“状态”。处于不同状态的细胞表达的基因不同,产生蛋白质和代谢物的动态重复序列,从而完成它们的工作。当细胞在不同状态间转变时,会经历转录重组的过程,其中一些基因被沉默,而另一些基因被激活。这些瞬时状态通常难以表征,因为在更稳定状态之间纯化细胞是困难或不可能的。单细胞RNA-Seq可以使您在不需要纯化细胞的情况下查看这些状态。然而,要做到这一点,我们必须确定每个细胞的可能状态范围。
今天给大家介绍的是基于Monocle2(目前Monocle已经更新至3版本,该版本仍处在开发阶段)的拟时分析。Monocle不是通过实验将细胞纯化成离散状态,而是使用一种算法来学习每个细胞必须经历的基因表达变化序列,作为动态生物学过程的一部分。一旦它了解了基因表达变化的整体“轨迹”,Monocle就可以将每个细胞放置在轨迹中的适当位置。Monocle依靠一种叫做反向图嵌入的机器学习技术来构建单细胞轨迹(算法参考文献:Reversed graph embedding resolves complex single-cell trajectories)。
Monocle2分析主要基于以下3个步骤:
1、基因筛选:Monocle寻找以“有趣”(即不只是嘈杂)方式变化的基因,并利用这些基因来构造数据。
2、降低维度:一旦选择了用于细胞排序的基因,Monocle就会对数据进行降维处理。
3、pseudotime对细胞排序:通过将表达数据投影到较低维空间,构建细胞间的分化轨迹。
结果解读:
图一:树形结构轨迹图
图中每个点代表一个细胞,具有相似细胞状态的细胞被聚到一起,每个分支点代表着一个可能的细胞生物学过程决策点(该例图中有2个分支点)。左图为按照细胞聚类信息进行颜色标注(如果您已经对每个cluster进行了细胞鉴定,也可以基于具体的细胞进行着色),右图为按照分化状态(State)进行颜色标注。
当细胞cluster或state数量过多时,很难看出每个cluster或状态落在树上的哪个位置(如图一左图)。因此,我们还可以将每个cluster或状态的轨迹图分开展示,便于对每个cluster或状态进行研究。
图二:每类细胞(或State)轨迹图
确定了分化起点后,Monocle可以模拟出每个细胞所处的分化时间(pseudotime,伪时间),并寻找随着分化时间逐渐升高或降低的基因(图四为拟时序变化相关基因(Top6)表达分布图和top50基因热图,如果有特别关注的基因也可以基于关注的基因进行绘制)。
图三:每个细胞分化时间(pseudotime)轨迹图
图四:拟时序变化相关基因表达分布图和热图