原理
在单细胞RNA测序(RNA-seq)中,一个主要的挑战是它只能提供细胞在测量时的静态状态,而无法随时间跟踪细胞的变化。RNA速度(RNA velocity)的概念(La Manno等,2018)突破了这一限制,不仅能显示细胞的当前状态,还能揭示细胞在转录组空间中的运动方向和速度,从而为研究细胞动力学提供了新的方法,进而实现细胞动力学的预测模型。
RNA Velo 基于基因中剪接和非剪接信使RNA(mRNA)比例,描述了基因在特定时间点的表达变化速率。然而,如果不满足关于常规剪接速率的假设,或是观察到的稳态mRNA水平与实际剪接动力学不一致,那么RNA速度的估计可能会有误差。ScVelo 通过利用基于似然的动态模型,解决了这一问题。它扩展了RNA Velo,使其适用于那些在发育或对扰动反应中常见的瞬态细胞状态。
ScVelo 能够推断特定基因的转录、剪接和降解速率,重建每个细胞在潜在分化过程中的位置,并识别可能的驱动基因。ScVelo提出了三种模型,其中稳态模型(La Manno等,2018)通过观察到的未剪接与剪接mRNA的比例与推断的稳态比率的差异来估计速度。在稳态模型中,RNA速度通过对预计达到稳态表达水平的细胞进行线性回归近似估计。然而,这个方法假设每个细胞的降解率和剪接率等参数是固定的,这显然是不现实的。
因此,ScVelo推出了动态模型,该模型引入了期望最大化(Expectation Maximization, EM)算法,通过最大似然法迭代逼近转录速率、未剪接到剪接的剪接速率和剪接后mRNA产物的降解速率,并学习特定基因的剪接/未剪接轨迹。通过这种方式,动态模型能够更准确地恢复每个细胞在潜在分化过程中的位置,并识别可能的关键驱动基因。与稳态模型相比,动态模型通常能在相邻细胞之间产生更一致的速度估计,并更准确地识别转录状态。
结果介绍
1 数据质量
很多人都不太重视这个图,但是很重要。该图显示的是每个细胞类型的剪切/未剪切count的比例,10x单细胞普通转录组的数据基因剪切和未剪切比例大概是8:2,10X单细胞核转录组的结果和常规转录组刚好相反,这是因为普通转录组的细胞核是完整的,捕获的mRNA都是已经剪切后成熟的mRNA,而核转录组捕获的是核内未成熟的mRNA。
此外,从不同细胞类型的剪切比例变化,我们也能大概看出一个分化的趋势!
2 细胞速度矢量可视化
这个图和其他三个图都是展示细胞的分化轨迹,箭头的长度和方向代表细胞分化的速度和方向
3 潜伏时间
潜伏时间是一个虚拟的概念,是通过Scvelo推断给每个细胞一个潜在的时间,只基于转录组学。表示一个细胞在分化过程中所处的一个位置。
该图就是将所有细胞的潜伏时间嵌入到umap图上,数值越低的细胞,表示该细胞分化程度越低,而数值越高的细胞,表示该细胞的分化接近终末状态
该图的横坐标是按潜在时间(latent time)排序的细胞,纵坐标是基因。热图数据展示了前300个高似然基因在这些细胞中的表达量。通过将这300个高似然基因沿着潜在时间进行动态分析,可以观察到一个清晰的转录级联过程。
从小提琴图,也可以看到一个细胞的分化轨迹
4 高似然基因
scvelo的动态模型与稳态模型不同的地方就是稳态模型假设基因的剪切率、降解率等都是一定的,但是动态模型中通过似然的模型,动态的去计算每个细胞的剪切率、降解率等参数,那些对该模型贡献较高的基因就被称为高似然基因。
作者认为这些高似然基因可以认为是驱动基因,可以被明显的检测到。
该图为Top15的高似然基因的基因相图。横坐标是剪切数,纵坐标是未剪切数,紫色虚线表示稳态比率,实线代表推断的轨迹,虚线上部分表示上图,下半部分是下调。
再放大一种的这张图看看,Cpe基因在黄色,橙色,绿色,蓝色簇中上调。它在这些簇中有高未剪切占比,且速度方向为黄色,橙色,绿色,蓝色。
该图的横坐标是latenet time,纵坐标是基因表达量,我们可以很清楚的看到这些基因在某一个时刻,有一个明显的上升或者下降的断点,而这些断点,刚好是细胞类型的分界点。