单细胞分子分析技术正得到迅速发展,但人工标注细胞类型的过程通常是劳动密集型的,而且速度有限。我们描述了Garnett,这是一种在单细胞转录分析(sc-RNA)和单细胞染色质可达性(sc-ATAC)数据集中快速注释细胞类型的工具。Garnett是基于细胞类型特定marker基因的一种可解释、分层标记语言。Garnett成功地分类了组织和整个有机体数据集中的细胞类型,以及跨物种的细胞类型。
单细胞转录分析(scRNA-seq)已经成为一种对复杂动物组织中存在的多种细胞类型进行区分的有力手段。构建细胞图谱的计算步骤通常包括基于细胞基因表达谱的无监督聚类,然后在得到的聚类中注释已知的细胞类型。关于后一项任务,至少有四项挑战证明该领域的速度有限。
- 首先,细胞类型注释是劳动密集型的,需要对集群特异性基因进行大量的文献调研。
- 其次,对分析的任何修改(例如增加数据、调整参数)都需要对以前的所有注释进行手动的重新评估。
- 第三,细胞类型注释不容易在相关组织的独立组生成的数据集之间传输,导致大量的重复工作。
- 最后,细胞类型注释通常是临时的;尽管存在细胞类型的本体(ontologies),我们缺乏系统地应用这些本体来注释新的scRNA-seq数据集的工具。
总的来说,这些挑战严重阻碍了对细胞类型理解的发展。为了应对这些挑战,我们设计了Garnett。Garnett四个部分组成。
- 首先,Garnett定义了一种标记语言(markup language),用它们专门表达的基因来指定细胞类型。在标记语言中一个细胞类型可以有子类型(e.g. CD4+ and CD8+ are subsets of T cells)。
- 其次,Garnett包含一个解析器,它将标记文件与单细胞数据集一起处理,识别带有标记的代表性细胞,这些标记明确地将它们标识为文件中定义的细胞类型之一。
- 第三,Garnett训练了一个分类器,它可以根据细胞与代表性细胞的相似性,识别出属于每种细胞类型的额外细胞,类似于我们的团队最近开发的一种方法,用于标注单个细胞小鼠染色质图谱的可达性(sc-ATAC)。重要的是,Garnett并不要求将先执行聚类分析将细胞分成特定的群,但是它可以使用自己的内部分群方法或其他工具(如Monocle9或Seurat)将分类扩展到类型相似的细胞。
- 最后,Garnett提供了一种方法,将标记文件与在一个数据集上训练的分类器一起应用,以快速地对其他数据集进行注释。
Garnett算法概述。有关算法细节,请参见原文方法。简单地说,Garnett将使用标记基因定义细胞类型的标记文件作为输入,并构建一个可以包含细胞子类型的细胞类型层次结构。接下来,Garnett通过比较细胞类型代表细胞,在从树的根开始的每个节点上使用弹性网络多项式回归(elastic net multinomial regression)来训练分类器.最后,Garnett分层地对所有细胞进行分类,并可选地提供第二种扩展的以聚类结果进行分类。
10x公司100,000个细胞PBMC数据集的t-SNE图。第一个面板d彩色基于流式细胞仪分选的细胞类型,第二个面板是由cluster-agnostic彩色细胞类型根据Garnett分类,第三个面板是彩色的Garnett的cluster-extended类型、标签细胞基于分群构成。
(B)中数据的热图,基于FACS(行)的标签与集群不可知(左)和集群扩展(右)的细胞类型结果。颜色表示某个FACS类型的细胞百分比,每个类型由Garnett标记。
10X V2试剂应用于8000个来自健康捐赠者的pbmc。第一个面板是根据使用已知基因标记手动确定的类型着色的。第二个和第三个面板由加内特集群不可知和集群扩展细胞类型分配着色,分配是由根据面板(B)和(C)中显示的数据训练的分类器完成的。
与panel (C)类似,(D)中的数据热图。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
Nature Methods||Supervised classification enables rapid annotation of cell atlases