10X单细胞(10X空间转录组)scvelo动态模型导论

hello,大家好,今天我们要分享一个很难的数学理论,大家在用单细胞做velocyto的时候,如果用到的是scvelo,那么会有三种模式,列举如下:

(1)稳态/确定性模型

velocyto 中使用稳态/确定性模型对RNA 速率进行估计。在假定转录阶段(诱导和抑制) 持续足够长的时间以达到稳态平衡的情况下,速率被量化为实际观测值如何偏离稳态平衡。平衡mRNA 水平近似于在假定的上下分位数的稳定状态下的线性回归。这种简化是通过假设一个跨基因的通用剪接率和数据中反映的稳态mRNA 水平来实现的。基于这些假设,可能导致速率估计和细胞状态的错误,特别是当一个种群包含多个异质亚种群动态时。

(2)随机模型

随机模型的目标是更好地捕捉稳态,但与稳态模型的假设相同。它是通过处理转录,剪接和降解作为概率事件,从而纳入二阶矩。也就是说,稳态水平不仅与mRNA 水平近似,而且与内在表达变异性近似。

(3)动态模型

动态模型(最强大,但计算量最大) 解决了每个基因的剪接动力学的全部动态。因此,它使RNA 速率适应广泛变化的规格,如非平稳群体,因为它不依赖于限制一个共同的剪接率或待抽样的稳态。通过迭代估计反应速率和潜在细胞特异性变量的可识别参数,即转录状态和细胞内潜伏时间,在基于概率的期望最大化框架中求解剪接动力学。该模型能够进一步以一种基于概率的方式系统地识别动态驱动基因,从而找到控制细胞命运转变的关键驱动因素。此外,动态模型推断了一个普遍的细胞内潜伏时间共享的基因,能够将相关基因和识别转录变化的机制联系起来。

其实大家应该都明白,发育本身就是动态的过程,推荐大家使用动态模式,这一篇我们就来分享速率动态模型的理论依据,参考文献在Generalizing RNA velocity to transient cell states through dynamical modeling ,2020年发表于nature biotechnology,IF55分,这个相较于之前18年的Nature文章提出的RNA速率的概念的基础上,并对之前的数学模型做了进一步优化,在这篇文章中提出了更全面更准确的模型和方法。而我们今天就来分享这个数学理论。

图片.png

Abstract

RNA Velocyto开辟了研究单细胞 RNA 测序数据中细胞分化的新方法。它根据其剪接和未剪接的信使 RNA (mRNA) 的比率描述了单个基因在给定时间点的基因表达变化率。然而,如果违反了共同剪接率的中心假设和对具有稳态 mRNA 水平的完整剪接动力学的观察,则会出现velocyto估计的错误。在这里,开发介绍了 scVelo,这是一种通过使用基于似然的动力学模型解决剪接动力学的完整转录动力学来克服这些限制的方法。这将 RNA velocyto推广到具有瞬态细胞状态的系统,这在发育和对扰动的响应中很常见。分析将 scVelo 应用于解开神经发生和胰腺内分泌发生中的subset动力学。推断基因特异性的转录、剪接和降解速率,恢复每个细胞在潜在分化过程中的位置并检测推定的驱动基因。 scVelo 将促进谱系决定和基因调控的研究。

Introduction

单细胞转录组学能够以单细胞分辨率对生物过程进行unbiased的研究,例如细胞分化和lineage choice。由此产生的计算问题称为trajectory inference。从处于发育过程不同阶段的细胞群开始,轨迹推断算法旨在重建导致潜在细胞命运的转录变化的developmental sequence。目前已经开发了多种此类方法,通常将动力学建模为细胞沿着理想化的、潜在的分支轨迹的进展。轨迹推断的一个核心挑战是单细胞 RNA 测序 (scRNA-seq) 的破坏性,它只能揭示细胞状态的静态快照为了从描述性轨迹模型转向预测性轨迹模型,需要额外的信息来限制可能产生相同轨迹的可能动态空间。因此,lineage-tracing assays可以通过基因改造添加信息,以重建谱系关系。然而,这些检测方法设置起来并不简单,并且在许多系统(例如人体组织)中受到技术限制。

RNA velocyto的概念通过利用新转录的、未剪接的前 mRNA 和成熟的剪接 mRNA 可以在常见的 scRNA-seq protocol中区分的事实,使定向动态信息的恢复成为可能,前者可通过内含子的存在检测假设一个简单的每个基因反应模型将未剪接和剪接 mRNA 的丰度联系起来,可以推断出 mRNA 丰度的变化,称为 RNA velocyto正 RNA velocyto表明基因被上调,这种情况发生在该基因的未剪接 mRNA 丰度高于预期的稳定状态的细胞中。相反,负velocyto表明基因被下调。然后可以使用跨基因的velocyto组合来估计单个细胞的未来状态原始模型在假设基因表达的诱导和抑制的转录阶段持续足够长的时间以达到活跃转录和非活跃沉默稳态平衡的情况下估计velocyto。在推断处于恒定转录稳态的未剪接与剪接 mRNA 丰度的比率后,velocyto被确定为观察到的比率与其稳态比率的偏差。推断稳态比率有两个基本假设,即 (1) 在基因水平上,捕获了具有转录诱导、抑制和稳态 mRNA 水平的完整剪接动态; (2) 在细胞水平上,所有基因共享一个共同的剪接率。这些假设经常violated,特别是当一个群体包含多个具有不同动力学的异质亚群时。将这种建模方法称为“稳态模型”。

为了解决上述限制,作者开发了 scVelo,这是一种基于可能性的动力学模型,可以解决完整的基因转录动力学问题。 因此,它将 RNA velocyto估计推广到瞬态系统和具有异质亚群动力学的系统在有效的期望最大化 (EM) 框架中推断转录、剪接和降解的基因特异性反应速率以及潜在的基因共享潜伏时间。 推断的潜伏时间代表细胞的internal clock,它准确地描述了细胞在潜在生物过程中的位置。 与现有的基于相似性的伪时间方法相比,这种潜在时间仅基于转录动力学,并考虑了运动的速度和方向

示例展示了动力学模型对海马齿状回神经发生和胰腺内分泌发生中各种细胞谱系的能力。与稳态模型相比,动态模型通常会在相邻细胞之间产生更一致的速度估计,并准确识别转录状态。它提供了对循环胰腺内分泌前体细胞的细胞状态的fine-grained见解,包括它们的谱系定型、细胞周期退出以及最终的内分泌细胞分化。在这里,分析推断的潜伏时间能够重建转录组事件和细胞命运的时间序列。此外,scVelo 确定了调节变化的机制,例如过渡状态和细胞命运承诺的阶段。在这里,scVelo 确定了这些转录变化的假定驱动基因。驱动基因显示出明显的动态行为,并通过动态模型中的高可能性特征系统地检测到。此过程提出了标准差异表达范式的基于动力学的替代方案。

最后,建议进一步解释基因表达的随机性,通过将转录、剪接和降解视为概率事件而获得。 分析展示了如何为稳态模型实现这一点,并展示其在很大程度上捕获从完整动力学模型推断出的方向性的能力。 软件scVelo对稳态模型的显着改进,同时在计算时间上同样有效。 动态、随机和稳态模型在 scVelo 中可用作强大且可扩展的实现 (https://scvelo.org)。

Results

Solving the full gene-wise transcription dynamics at single-cell resolution.

与original framework一样,使用以下描述的基本反应动力学模拟转录动力学(导数和偏导数不知道大家还知道多少

图片.png

图片.png

  • 注:Modeling transcriptional dynamics captures transcriptional induction and repression (‘on’ and ‘off’ phase) of unspliced pre-mRNAs, their conversion into mature, spliced mRNAs and their eventual degradation.

对于每个基因,独立于所有其他基因。 与original framework相反,为了解释未观察到的稳态,这里明确地求解这些方程并推断出由两组参数控制的剪接动力学:(1) 转录反应速率 αk(t),剪接 β 和degradation γ; (2) 细胞特异性潜在变量——即离散的转录状态 ki 和连续的时间 ti,其中 i 代表单个观察到的细胞。

图片.png

  • 注:An actively transcribed and an inactive silenced steady state is reached when the transcriptional phases of induction and repression last sufficiently long, respectively. In particular in transient cell populations, however, steady states are often not reached as, for example, induction might terminate before mRNA-level saturation, displaying an ‘early switching’ behavior.

如果给定潜在变量,则可以获得反应速率的参数,反之亦然。因此,通过 EM 推断参数,通过最大似然迭代估计反应速率和潜在变量。 In the expectation step, for a given model estimate of the unspliced/spliced phase trajectory,

图片.png
a latent time ti is assigned to an observed mRNA value xi = (ui,si) by minimizing its distance to the phase trajectory X.The transcriptional states ki are then assigned by associating a likelihood to respective segments on the phase trajectory χ—that is, ki ∈ { on; off ; sson; ssoff} labeling induction, repression and active and inactive steady states. In the maximization step, the overall likelihood is then optimized by updating the parameters of reaction rates. Convergence to an optimal parameter set is achieved for genes that display evident kinetics. Note that, for efficiency reasons, we use an approximation to the optimal time assignment, which essentially yields the same results at a 30-fold speedup.
图片.png

  • 注:c, We propose scVelo, a likelihood-based model that solves the full gene-wise transcriptional dynamics of splicing kinetics, which is governed by two sets of parameters: (1) reaction rates of transcription, splicing and degradation, and (2) cell-specific latent variables of transcriptional state and time. The parameters are inferred iteratively via EM. For a given estimate of reaction rate parameters, time points are assigned to each cell by minimizing its distance to the current phase trajectory. The transcriptional states are assigned by associating a likelihood to respective segments on the trajectory—that is, induction, repression and active and inactive steady state. d, The overall likelihood is then optimized by updating the model parameters of reaction rates. The dashed purple line links the inferred (unobserved) inactive with the active steady state.
图片.png

由此产生的基因特异性轨迹 χ,由反应速率和转录状态的可解释参数参数化,明确描述了 mRNA 水平如何随潜伏时间演变。 而稳态模型使用线性回归来拟合假设的稳态,如果没有观察到这些就会失败,而动力学模型解决了未剪接和剪接 mRNA 丰度的完整动态,从而使未观察到的稳态也能被忠实地捕获。 然后,RNA 速度由剪接 mRNA 丰度的导数明确给出,由推断变量参数化。

图片.png

为了使反应速率的推断参数与基因相关,基因潜伏时间与代表细胞internal clock的通用基因共享潜伏时间相耦合


图片.png

这个universal time使我们能够在所有基因剪接动力学的支持下解析细胞在生物过程中的相对位置。 此外,通过在基因之间共享信息,可以更自信地识别转录状态。 在模拟剪接动力学上,潜在时间能够以近乎完美的相关性和正确的尺度重建潜在的实时时间,明显优于扩散伪时间。 与伪时间方法相反,潜在时间基于转录动力学,并在内部解释运动的速度和方向。 因此,scVelo 的潜伏时间产生忠实的基因表达时间过程,以描绘动态过程并提取基因级联。

此外,与普遍潜伏时间的耦合使我们能够确定高达global基因共享尺度参数的动力学速率。 使用发育过程的整体时间尺度作为先验信息,最终可以确定动力学速率的绝对值.

Identifying reaction rates in transient cell populations.

为了验证这两种模型对模拟剪接动力学中不同参数的敏感性,按照泊松定律为每个反应速率和时间事件随机采样了 2,000 个对数正态分布参数。 处于转录状态的总时间在 2 到 10 小时之间变化。
随着transcriptional induction时间的减少,由稳态模型推断的比率会产生系统误差,因此 mRNA 水平不太可能达到稳态平衡水平。 相比之下,动力学模型产生的误差始终较小,并且对induction duration的可变性完全不敏感。 此外,当使用动力学模型时,真实和推断稳态比率之间的 Pearson 相关性从 0.71 增加到 0.97。 将 20 小时拼接动力学的整体时间尺度作为先验信息,动力学模型可靠地恢复了模拟拼接动力学的真实参数,实现了 0.85 及更高的相关性

图片.png

Resolving the heterogeneous population kinetics in dentate gyrus development.

为了测试 scVelo 的速度估计是否允许识别更复杂的种群动力学,分析考虑了来自发育中的小鼠齿状回的 scRNA-seq 实验,该实验包括两个时间点(P12 和 P35),使用基于液滴的 scRNA-seq(10x Genomics Chromium Single 细胞试剂盒 V1)。 最初的出版物旨在阐明发育和成人齿状回神经发生之间的关系。 尽管他们将瞬时中间状态与成神经细胞阶段和成熟颗粒细胞联系起来,但无法最终确定放射状胶质细胞样细胞的定型。
在基本预处理之后,应用稳态模型和动力学模型,并在基于统一流形近似和投影 (UMAP) 的数据嵌入中使用流线图显示矢量场

图片.png

  • 注:Velocities derived from the dynamical model for dentate gyrus neurogenesis19 are projected into a UMAP-based embedding. The main gene-averaged flow visualized by velocity streamlines corresponds to the granule lineage, in which neuroblasts develop into granule cells. The remaining populations form distinct cell types that are either differentiated, for example CR cells, or cell types that form sublineages, for example the GABA and oligodendrocyte lineages (OPC to OL). When zooming into the cell types to examine single-cell velocities, fundamental differences between the velocities derived from the steady-state and dynamical model become apparent. Only the dynamical model identifies CR cells to be terminal by assigning no velocity and indicates that OPCs indeed differentiate into OLs. By contrast, the steady-state model displays a high velocity in CR cells and points OPCs away from OLs. Overall, the dynamical model yields a more coherent velocity vector field as illustrated by the consistency scores (in the top-right corner, defined for each cell as the correlation of its velocity with the velocities of neighboring cells).

主要结构是颗粒细胞谱系,其中成神经细胞发育成颗粒细胞。 同时,剩余的群体形成完全分化的不同细胞类型(例如,Cajal-Retzius (CR) 细胞)或形成亚系的细胞类型(例如,GABA 细胞)。 两个实验时间点和实验分析表明细胞类型是仍在过渡中还是已经结束,两者都支持整体速度推断的方向性。 值得注意的是,来自两种模型的速度解决了先前关于径向胶质细胞样细胞的命运选择有利于星形胶质细胞而不是神经源性中间祖细胞的模棱两可的证据。

图片.png

虽然两种模型都捕获了成熟颗粒细胞的主要谱系,但单细胞velocyto说明了亚谱系和subcluster的显着差异。因此,只有 scVelo 才能正确识别分化为髓鞘少突胶质细胞 (OL) 和 CR 细胞的少突胶质细胞前体细胞 (OPC) 作为终端。稳态模型错误地将high velocities分配给 CR 细胞,这可以追溯到基因解析velocyto。使用 Fam155a,稳态模型中不协调的 CR 速度变得明显。剪接动态,特别是 Fam155a 很好地说明,清楚地表明 CR 群体是终端。此外,表达模式没有显示 CR 群体内任何进一步成熟的证据。然而,由于稳态模型将速度确定为与针对整个群体计算的稳态的偏差,因此该模型倾向于将高速分配给离群细胞,例如 CR 群体。动力学模型将 CR 细胞分配到稳定状态的可能性很高,因为它不能确信地与任何瞬态相关联。

图片.png
  • 注:Gene-resolved velocities allow further interpreting the inferred directionality on the cellular level. For instance, Tmsb10 is the major contributor to the gene-averaged flow that describes neuroblasts as differentiating into granule cells. With Fam155a, the incongruous CR velocities from the steady-state model become evident. By reducing velocity estimation to steady-state deviations, this model is biased to assign high velocities to outlier cells, such as the CR population. In contrast, the dynamical model assigns CR cells to a steady state with high likelihoods, as they are not well explained by the overall kinetics and cannot be confidently linked to the transient induction state.

Tmsb10 是推断动态的主要贡献者,并说明了另一个根本区别。 从动力学模型导出的速度在相邻细胞的velocyto之间比从稳态模型导出的速度更一致,这导致速度矢量场的整体相干性更高.

图片.png

稳态模型和动力学模型都在成熟的颗粒细胞隔室中产生额外的动态流动,预计这是最终的,可能值得进行实验跟进。 进一步值得注意的是,即使mossy细胞位于神经母细胞旁边,但速度推断的细胞间转换概率并未显示两个种群之间的任何可能的转换,因此表明mossy细胞形成了自己的谱系
图片.png

Determining dynamical genes beyond differential expression testing.

scVelo 计算每个基因和细胞在模型最佳潜伏时间和转录状态下的可能性,解释了学习的拼接/未拼接相位轨迹对细胞的描述程度。 聚合细胞以获得整体基因可能性,根据基因的拟合优度对基因进行排名。 能够识别表现出明显动态行为的基因,这使它们成为种群中主要过程的重要驱动因素的候选者


图片.png
  • 注:The dynamical model allows to systematically identify putative driver genes as genes characterized by high likelihoods. Whereas genes selected by high likelihoods (upper row) display pronounced dynamic behavior, expression of low-likelihood genes (lower row) is governed by noise or nonexisting transient states. nIPC, neurogenic intermediate progenitor cell.

图片.png

排名最高的基因显示出剪接动力学的明确指示,而排名低的基因的表达受噪声或不存在的瞬态控制。此外,部分基因可能性——即为细胞subset计算的可能性——能够识别特定过渡阶段、分支区域、特定细胞类型或循环subcluster的潜在驱动因素。据报道,许多排名靠前的基因在神经发生中发挥关键作用(例如 Grin2b、Map1b 和 Dlg2),而其中一些基因与海马回路中的 CA1 区域相连(例如,Tmsb10 和 Hn1 )。 Ppp3ca 是可能性最高的基因,主要对速度矢量场有贡献,它被提升到颗粒细胞。通过将 Ppp3ca 活性的降低与阿尔茨海默病中的 tau 蛋白病变联系起来,已经证明了它的重要作用。通过表明排除最高似然排名的基因会导致动力学的不可重构性,我们在计算上表明推断的方向性主要受这些驱动基因控制。
图片.png

Delineating cycling progenitors, commitment and fate transitions in endocrinogenesis.

接下来,展示了 scVelo 描绘小鼠胰腺内分泌发育瞬态谱系的能力,以及从 E15.5 采样的转录组谱。 内分泌细胞来源于位于胰腺上皮细胞的内分泌祖细胞,以转录因子 Ngn3 的瞬时表达为标志。 内分泌承诺在四种主要命运中终止:glucagon-producing α-cells, insulin-producing β-cells, somatostatin-producing δ-cells and ghrelin-producing ∈-cells。尽管在之前的工作中 RNA velocyto阐明了内分泌谱系中的定向流动,但无法清楚地描绘内分泌命运,并且出现了不协调的subpopulation流动。
与稳态模型相比,我们展示了从动态模型中获得的对发展过程的额外细粒度见解。 首先,scVelo 准确描绘了导管细胞和内分泌祖细胞的循环群体,通过细胞周期评分(相位标记基因平均表达水平的标准化评分)和先前的分析在生物学上得到证实

图片.png

  • 注:Velocities derived from the dynamical model for pancreatic endocrinogenesis are visualized as streamlines in a UMAP-based embedding. The dynamical model accurately delineates the cycling population of endocrine progenitors, their lineage commitment, cell cycle exit and endocrine differentiation. Inferred S and G2M phases based on cell cycle scores affirms the cell cycle identified by the dynamical model。
    此外,scVelo 阐明了谱系定型、细胞周期退出和内分泌细胞分化的细胞状态。 相比之下,稳态模型不捕获细胞周期,并在后期内分泌阶段产生不协调的回流。例如,错误地似乎在去分化的 α 细胞可以追溯到错误的状态识别——例如,在 Cpe 中将部分 α 细胞分配到诱导和抑制阶段
    图片.png
  • 注:b,The steady-state model does not capture the cycle and yields incongruous backflows directed against the lineage in later endocrine stages. c, Single-gene velocities illustrate the limitations of the steady-state model. Incongruous backflows in α-cells can be traced back to false state identifications—for example, in Cpe it assigns α-cells in parts to both induction and repression phases.
    最近的几项研究报告了 scVelo 推断的动态,这些研究阐明了沿谱系阶段的时间分辨程序。 例如,谱系追踪分析显示内分泌细胞是通过 Fev+ 内分泌细胞的中间阶段从 Ngn3+ 前体衍生而来的。

Relating cell fates and disentangling dynamical regimes through latent time.

分析推断出一个代表细胞internal clock的通用基因共享潜伏时间。 与基于相似性的扩散伪时间相比,这种潜在时间是对实时的更忠实的重建

图片.png

比较了内分泌细胞命运chronology中的伪时间和潜伏时间。 实时地,α 细胞比 β 细胞(E12.5-E15.5)更早(在 E12.5 之前)产生。 此排序由潜在时间而非伪时间捕获。
图片.png

此外,推断出的 α 细胞velocyto低于 β 细胞中的强定向流动,这再次表明 α 细胞已经在较早阶段产生。 此外,推断的基因特异性转换时间点表明转录变化区域。 从一种转录状态转变为另一种转录状态的已识别基因的数量——例如,从诱导到抑制——产生了lineage commitment、过渡状态和分支点的区域。
图片.png

在这些区域内,推定的驱动基因可以通过它们的可能性来识别,其中排名靠前的基因与hormone processing(例如,Cpe 和 Pcsk2)和分泌(Abcc8)相关。 它们的转录活性通过沿潜伏时间解析的基因表达动态显示。
图片.png

Extending the model to account for stochasticity in gene expression.

基因表达的部分随机性已通过系统生物学中的各种建模方法得到解决。 scVelo 基于似然的方法的灵活性能够扩展确定性常微分方程 (ODE) 模型,通过将转录、剪接和降解视为概率事件来解释随机性。为简单起见,演示了如何在稳态模型中实现这一点。由此产生的马尔可夫跳跃过程通常由矩方程近似,可以在所考虑的线性 ODE 系统中以封闭形式求解。通过包括二阶矩,我们不仅利用了未剪接与剪接 mRNA 水平的平衡,而且还利用了它们的协变。随机稳态模型能够比确定性稳态模型更大程度地捕获完整动力学模型的结果,这表明随机性增加了有价值的信息。例如,随机模型解决了颗粒、星形胶质细胞和 GABA 成熟的齿状回中的亚谱系。在胰腺内分泌发生中,它能够在很大程度上解决循环祖细胞和内分泌谱系承诺,但也像确定性模型一样在 α 细胞中产生回流。总体而言,随机模型显示出比确定性模型更高的一致性,同时在计算时间上保持同样高效。随机动力学模型的研究留待未来工作。

图片.png

图片.png

Accounting for different kinetic regimes and insufficiently observed kinetics.

一个重要的问题是处理代表多个谱系和过程的系统,其中基因可能在亚群中显示不同的动力学机制。 不同的细胞状态和谱系通常由基因调控网络中的不同变化控制,因此可能表现出不同的剪接动力学。 这产生了在相空间中显示多个轨迹的基因。 为了解决这个问题,我们对微分动力学进行似然比测试,以检测显示出不能由整体动力学的单一模型很好解释的动力学行为的cluster。 将细胞类型聚类到它们不同的动力学机制中,然后我们就可以分别拟合每个机制。

图片.png

另一个困难涉及观察不到的剪接动力学。例如,可能在过程的最后只检测到整体动态的一小部分。这在未拼接到拼接的相图中表现为一条直线,而不是一条曲线。以这种方式观察局部动力学会导致稳态和随机模型错误地拟合这条线并错误地分配正velocyto和负velocyto。在确定是否应该适合上调或下调时,缺乏观察到的曲率也挑战了动力学模型。这种模糊性可以在两个应用场景中观察到,其中只公开了一小部分动力学:(1) 基因仅在观察过程的一个小窗口中处于活动状态,或 (2) 数据中观察到的时间范围仅涵盖底层动态过程的一小部分时间框架。前一种情况发生在基因仅在发育过程的最后上调或在发育过程的最开始下调时。后一种情况可能发生在动态过程以快速或同步方式发生时,这样在 scRNA-seq 数据集中捕获的快照几乎不能恢复完整的动态。在这里,样本群体的整体发展时间尺度可能远短于动力学的潜在持续时间。分析通过使用“根先验”扩展动态模型来解决这个问题。该先验既可以从具有足够信息以揭示过程根源的基因内部获得,也可以从先验知识中获得,例如第一个实验时间点或已知的祖细胞群 。
图片.png

为此,建议用户不要将生物学结论限制在预测速度上,而是通过相图检查单个基因动态,以了解特定基因如何支持推断的方向。 因此,动态模型极大地促进了寻找最相关的基因。 我们还鼓励用户挑战基本假设,特别是测试差分动力学、未充分观察的动力学和时间尺度不匹配。

Tenfold speedup for the steady-state model and large-scale applicability.

动态、随机和稳态模型在 scVelo 中可用作强大且可扩展的实现 (https://scvelo.org)。 举例来说,在具有 25,919 个转录组谱的胰腺发育过程中,scVelo 运行稳态和随机模型的完整管道,从预处理数据到速度估计,再到在不到 1 分钟的时间内将数据投影到任何嵌入中。这是通过与 scanpy 集成的内存高效、可扩展和并行化的管道,通过利用高效的最近邻搜索、分析封闭形式解决方案、稀疏实现和矢量化来获得的。因此,scVelo 管道比原始实现(velocy)实现了十倍以上的加速。完整的剪接动力学,包括动力学速率参数、潜伏时间和速度,是在 35,000 个profiles中的 1,000 个基因的 20 分钟的更长但可行的运行时间中推断出来的。由于它随着细胞和基因的数量在接近线性的时间内扩展,它的运行时间被 velocy 的二次运行时间超过了在 35,000 和更高的大细胞数量上。对于大量细胞,内存效率也成为一个关键方面。在具有 3.7 GHz 和 64 GB RAM 的 Intel Core i7 CPU 上,velocyto 无法处理超过 40,000 个细胞,而 scVelo 可扩展到超过 300,000 个细胞。值得注意的是,随机稳态模型以封闭形式求解并保持计算效率。它用作效率和准确性之间的权衡,建议在运行时特别重要时使用。

Discussion

scVelo 无需假设存在稳态或跨基因的共同剪接率即可估计velocyto。它保持了恒定的基因特异性剪接和降解速率以及两个分别用于诱导和抑制的转录速率的较弱假设。这些假设在实践中可能会被违反,并且可以通过将 scVelo 扩展到更复杂的法规来解决。在基因水平上,全长 scRNA-seq protocol,如 Smart-seq2,允许考虑基因结构、可变剪接和状态相关的降解率。这些可以通过调整 ODE 模型并入 scVelo 基于似然的推理中。特别是,转录组尺度的空间单细胞 RNA 分析可能提供有关解决基因调控空间依赖性所需的相对细胞位置的额外信息空间坐标和实验时间也可能被用作额外的约束来扩展潜伏时间的概念——例如,捕捉细胞周期的进展。可以在稳态之外利用随机可变性,这被称为“倾听噪音”并被证明可以提高参数的可识别性。已在稳态公式中提出将动力学模型扩展到蛋白质翻译,并且同样可以包含在动力学模型中。代谢标记,例如使用单细胞 SLAM-seq,可以量化总 RNA 水平以及新转录的 RNA。这种额外的reads可以很容易地包含在动态模型中,将不同的标记长度作为额外的先验。进一步的扩展是将单基因动力学模型结合起来制定调节motifs,这可以通过利用最近的参数推理技术进行可扩展的估计和模型选择来推断。在 scVelo 的下游,现有的轨迹推断方法可以通过稳健地整合速度以更好地模拟细胞命运决策来扩展到通知方向性。因此,has made a first suggestion for inferring directed abstracted representations of trajectories through RNA velocity。此外,scVelo 的潜在时间和速度可以与表达谱一起使用,共同学习更好的潜在空间表示。
除了轨迹的识别和单个基因的动力学之外,通路的动态激活也很重要通过将 scVelo 与富集技术相结合,可以系统地推断激活的通路,而不依赖于聚类和差异表达分析,类似于我们如何证明动态调节基因的推断。 动态通路和转录因子的识别立即导致了对细胞状态转变的贡献的可测试假设。 scVelo 适用于表征瞬态populations,使其成为研究细胞对扰动的反应的有希望的候选者,扰动通常表现出剧烈的转换行为。 特别是,scVelo 可以帮助从机制上理解最近对此类响应建模的机器学习方法,并指出将它们扩展到结合剪接动力学的方法
In the meantime, scVelo is continuously advanced by the community, bringing efficiency enhancements to the RNA velocity workflow. It has, for instance, contributed to the detailed study of dynamic processes in human lung regeneration and is expected to facilitate the study of lineage decisions and gene regulation, particularly in humans.

Method

图片.png
图片.png
图片.png
图片.png

示例代码的话大家可以参考我的文章10X单细胞(10X空间转录组)RNA速率分析之scVelo

生活很好,有你更好

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容