作者:童蒙
编辑:angelica
使用单细胞来研究RNA速率
在发育过程中,不同的mRNA有不同的半衰期,可以是几个小时,也可以是几天。mRNA前体和成熟体的相对比例可以用来估计基因可变剪接和降解的相对丰度,而不需要额外的代谢标记。因此,使用scRNA的数据,可以检测这个类似的信号,来推断整个转录组的动态变化的方向和速率。
使用intronic-polyT来推断unspliced RNA
所有的scRNA都是依赖polyT来富集mRNA分子,然而,通过检查各种数据(SMART2,10x等),发现15-25%的数据包含unspliced的序列,这个在bulk测序中是14.6%,在scRNA中是20%。造成这种现象的原因是大部分这种序列来自于intron区的引物互补区域存在。例如10x总,这种错误的扩增跟intronic-polyT有关,而这种扩增的序列又能代表unspliced前体mRNA。并且利用一个STRT实验证明,83%的基因表达时间过程一致具有简单的一级动力学,假如用unspliced 序列表示新生mRNA。
构建统计模型
我们构建了一个模型,用来衡量前体和成熟mRNA丰度之间的关系,即成熟mRNA丰度的一阶导数取决于前体mRNA的量和成熟mRNA降解的量。在模型中,当转录效率α是稳定的时候,会达到一个稳态,成熟体的丰度(s)和前体的丰度(u)都是同alpha相关,并且假设s=γu。γ受到了降解效率,可变剪接效率,调控效率、基因长度和存在的基因间的polyT位点个数都有关系。
统计模型在数据中得验证
通过之前的数据,大部分的基因都是符合这种假设的,只有11%的基因表现出来了组织特异性,说明存在特异性的可变剪接或者降解机制。
在bulk数据中,我们发现每个时间点的前体mRNA水平更类似于随后时间的成熟体mRNA。并且在有些基因中,在上调表达的时候,u会比较高,而在降解的时候,又会有缺失,因此需要进行适当的调整和变换。
使用一套已发表的数据,可以看出RNA速率的结果同实验结果预期一致。图a为SCPs到Chromaffin分化的过程,图b为两个不同基因在RNA速率上结果,可以看出都一致,图e为实验结果。
我们的速度估计程序包含几个特征适应剪接生物学的复杂性。1)使用 extreme expression quantiles来估计γ,即使大多数观察到的细胞都是稳态之外,也能获得准确的值。2)对于远离稳态的基因,我们也开发了一个拟合方法;3)可以用多种可视化方法来展示数据;4)使用细胞特异表达的基因可以更好的预测细胞的命运。
拟合不好的基因有以下几方面:
- 基因表达量的观测值远离平衡态
- ncRNA的不均衡表达
- 可变剪接导致γ的变化
在多分支的发育树上的比较,RNA速率也能很好的展示。如下图。e图展示Prox1可能是影响细胞发育的关键的基因。
不同得基因有不同得降解动力学机制,如下图。
参考文献
La Manno, G., Soldatov, R., Zeisel, A. et al. RNA velocity of single cells. Nature 560, 494–498 (2018). https://doi.org/10.1038/s41586-018-0414-6