目前有的一些聚类方法:基于距离的层次聚类、k-means聚类、自组织映射(SOMS)。
传统的分析方法就是将组织分为具有相似的表达谱的patterns,这种方法很难去区分典型的表达谱数据集。本文可以使用GoM(grade of membership)模型,这个模型允许产生的样本在多种clusters中存在不同的组员。也就是说,他们要求每个样本在每个cluster中都占有一定的比例或者“grade”。这个,模型被广泛使用于种群遗传学混合模型(个体可以从过多个种群中拥有自己的祖先)。在文档聚类中,每个文档在多种的topics中都会有关系。在这些领域, GoM模型也被叫做 “admixture models”, and “topic models” or “Latent Dirichlet Allocation”。GoM模型目前也可以被用于检测肿瘤样本中突变信息。
“cell type deconvolution”包括使用cell-type-specific expression profiles的marker gene去估计不同的细胞类型的比例(混合)。
具体来说,我们使用的GoM模型类似于——blind去卷积的方法(估计细胞的比例和细胞类型的信号)。
在我们分析人类的样本GTEX项目,这个模型可以在样本中捕获到生物的异质性尽管推断出的关系的层级是和具体的细胞类型不相关的。
在我们的单细胞的项目中,这个GoM的模型是一个灵活的对于传统聚类模型的补充,尽管将关系的层级解释成“细胞类型的比例”是不正确的(由于每个样本都是单个细胞)。
现在我们开发GoM作为传统模型的补充,可以捕获细胞内连续的或者离散的变动。
确实,细胞之间的差异在多大程度上可以用离散簇和更连续的种群来描述,这是一个基本问题,当结合适当的单细胞RNA-seq数据时,这里使用的GoM模型可能最终有助于解决这个问题。
To fit this model to RNA-seq data, we exploit the fact that this GoM model is commonly used for document clustering。
Single-cell RNA-seq data
单细胞技术在细胞差异电费表达谱上彻底改变了人们的认知。以前是以明显的细胞类型去分类细胞群,但是细胞世纪山给的异质性会更加的复杂,在某些情况下,也许细胞的状态就是连续的,我们的GoM模型就很适合去捕捉连续的细胞状态。