我们提出了Augur,一种在单细胞数据中对生物扰动最敏感的细胞类型进行优先排序的方法。Augur采用了一个机器学习框架来量化高维空间中扰动细胞和未扰动细胞的可分离性。我们在单细胞RNA测序、染色质可达性和成像转录组数据上验证了我们的方法,并表明Augur优于基于差异基因表达的现有方法。Augur特发现了脊髓神经刺激后恢复运动的神经回路。
在十年内,单细胞技术已经从单个细胞扩展到整个生物体。研究人员现在能够量化RNA和蛋白质的表达,解析它们在复杂组织中的空间组织,并解剖它们在数十万个细胞中的调控。这种规模的指数级增长正在促成从对健康组织图谱到描述对疾病和实验干扰的细胞类型特异性反应的转变。
这种转变需要分析方法做相应的转变,从分细胞类型之间的显著分子差异到解决细胞类型内部更微妙的表型变化。现有的工具侧重于识别在不同情况下具有统计学显著差异的单个基因或蛋白质。然而,在单个分析水平上的推论不适合解决更广泛的问题,即
哪种细胞类型对单细胞数据多维空间的扰动反应最灵敏。
这样的优先顺序可以阐明每一种细胞类型对机体表型(如疾病状态)的贡献,或者识别介导外界刺激(如药物治疗)反应的细胞亚群。细胞类型优先化也可以指导下游的研究,包括实验系统的选择,如Cre线或荧光激活细胞分类(FACS)门,以支持因果实验。然而,研究人员目前缺乏定制的工具来确定受干扰影响的细胞类型。
我们推断,在单细胞测量的多维空间中,对扰动反应最灵敏的细胞类型应该比受影响较小的细胞更加可分离,而这种分离的相对难度将为细胞类型优先排序提供定量基础。
我们将这个困难程度形式化为一个分类任务,询问疾病或扰动状态如何准确地从高多维的单细胞测量预测。对于每个细胞类型,Augur保留一部分样本标签,并在标记的子集上训练一个分类器。将分类器的预测与实验标签进行比较,并根据预测的接受者工作特征曲线(AUC)下的面积对细胞类型进行交叉验证。
Cell type prioritizations are stored in the AUC data frame - for example:
head(augur$AUC, 5)
A tibble: 20 x 2
cell_type auc
<chr> <dbl>
1 cell type 1 0.752
2 cell type 2 0.729
3 cell type 3 0.674
预测嘛,你给他一个数据总会预测出一个优先级,但是还是要看生物学解释。