SCENIC workflow 包含3个主要步骤:
以single-cell RNA-seq数据推断基因调控网络和细胞功能聚类
image.png
1.用GENIE3(随机森林) 或GRNBoost (Gradient Boosting) 推断转录因子与候选靶基因之间的共表达模块。每个模块包含一个转录因子及其靶基因,纯粹基于共表达。
2.使用RcisTarget分析每个共表达模块中的基因,以鉴定enriched motifs;仅保留TF motif富集的模块和targets,每个TF及其潜在的直接targets gene被称作一个调节子(regulon)
3.使用AUCell评估每个细胞中每个regulon的活性,AUCell分数用于生成Regulon活性矩阵,通过为每个regulon设置AUC阈值,可以将该矩阵进行二值化(0|1,on|off),这将确定Regulon在哪些细胞中处于“打开”状态。
使用RcisTarget是SCENIC不同于大多共表达算法的重要区别。
由于GENIE3模块仅基于共表达,因此结果可能包含许多误报和间接target,为了鉴定推断的直接结合的靶标基因,使用RcisTarget对每个共表达模块进行顺式调控基序(motif)分析。仅保留具有正确基因上游调节子且显着富集TF motif的模块,并对它们进行修剪以除去缺乏基序支持的间接靶标,这些处理后的模块才称为regulon。
AUCell对regulon的活性打分
每个细胞的Regulon活性评分确定了预期的细胞类型以及每种细胞类型的潜在主调控因子的列表. 作为SCENIC的一部分,作者开发了AUCell算法来对每个细胞中的每个regulon的活性进行评分。对于一个给定的regulon,通过比较所有细胞间的AUCell打分值,我们可以识别哪些细胞具有更显著高的regulon活性。通过卡阈值得到的二元活性矩阵使矩阵维数减少(可理解为只有 0|1,on|off),对于下游分析很有用。例如,基于regulon二元活性矩阵的聚类,可以根据某个调控子网络(regulon)的活性来识别细胞群类型和细胞状态。由于regulon是整体评分的,而不是使用单个基因的表达,因此这种方法对于个别基因的dropouts很有效。
AUCell提供了细胞中调控子的活性。通过基于这种调控子活动(无论是连续的还是二进制AUC矩阵)对细胞进行聚类,我们可以看到是否有一组细胞倾向于具有相同的活动调控子,并揭示跨多个细胞重复出现的网络状态。这些状态等于网络的吸引子状态。结合这些聚类和不同的可视化方法,我们可以探索细胞状态与特定调控子的关联。