单细胞36计之1瞒天过海---纠结的细胞分群

36计名称与内容无关，仅为统计顺序。

1、第一计瞒天过海
防备周全时，更容易麻痹大意；习以为常的事，也常会失去警戒。秘密常潜藏在公开的事物里，并非存在于公开暴露的事物之外。公开暴露的事物发展到极端，就形成了最隐秘的潜藏状态。

我的细胞到底分多少个群是合适的？

这是一个广泛而经典问题。就单细胞技术而言，我们常说每个细胞都是不同的，也就是说你总可以分到最细以单细胞为单位，但是这样就失去高通量的意义了。在低通量下，我们可以着眼于单个细胞，现在成千上万的细胞，一个一个看是不切实际的。那么，我的细胞到底分多少个群是合适的？

这个问题表现在Seurat中就是：Finding optimal cluster resolution in Seurat 3? 我们知道，不同的resolution参数会带来不同的分群结果。先看一下github上面的回答：

While Seurat doesn't have tools for comparing cluster resolutions, there is a tool called clustree designed for this task and works on Seurat v3 objects natively. It's available on CRAN and can be installed with a simple install.packages('clustree')

clustree我们之前讲过，可以全局地查看不同分群结果：

#先执行不同resolution 下的分群
library(Seurat)
pbmc_small <- FindClusters(
  object = pbmc_small,
  resolution = c(seq(.4,1.6,.2))
)
clustree(pbmc_small@meta.data, prefix = "RNA_snn_res.")

image

在clustree的图中我们看到不同resolution的取值情况下分群的关系。既然我们最终是以群为单位来分析的，我们肯定是希望每个群是比较纯的。如图可以看到在倒数第二层级有个亚群来自不同的分群，这有可能是：

分群过度，把原来分群的中应有的异质性也提炼出来单独作为一群了
上一层级分群不足，还包含了不该有的异质性。

这里就带来灵魂拷问了，就拿B细胞来说吧，它本身也是有异质性的啊，那么他的异质性是如何的呢？我们知道，某一类细胞内的异质性一般是要小于细胞群之间的异质性的。所以，拿到这个图我们就可以根据自己带着生物学意义的期望来做一个判断了。

其实，我们也知道分群终究是非监督的，只是数据驱动的，并不掺杂着数据（表达谱）以外的生物学意义。如果抛开这些生物学意义，其实是有一些办法来评价分群结果的：

image

这些方法也是在做群内和群之间的比较，得出类似群纯度的度量单位来评价分群结果。在不久前张泽民老师团队的一篇文章中提到过一种方法：ROGUE: an entropy-based universal metric for assessing the purity of single cell population。

image

该方法已被封装为一个R包： https://github.com/PaulingLiu/ROGUE

我们看到已经有不少的方法来做分群的评估了，还有：IKAP—Identifying K mAjor cell Population groups in single-cell RNA-sequencing analysis ：

image

以上这些方法大同小异，核心的问题是，或者研究者真正关心的是：

哪种分群结果的生物解释性高？

正所谓：分析总会有结果，看你敢用不敢用。

原文：Seurat Weekly NO.1 || 到底分多少个群是合适的？！

单细胞36计之1瞒天过海---纠结的细胞分群

推荐阅读更多精彩内容