单细胞数据挖掘||Garnett :基于监督学习的细胞注释算法

单细胞分子分析技术正得到迅速发展,但人工标注细胞类型的过程通常是劳动密集型的,而且速度有限。我们描述了Garnett,这是一种在单细胞转录分析(sc-RNA)和单细胞染色质可达性(sc-ATAC)数据集中快速注释细胞类型的工具。Garnett是基于细胞类型特定marker基因的一种可解释、分层标记语言。Garnett成功地分类了组织和整个有机体数据集中的细胞类型,以及跨物种的细胞类型。

单细胞转录分析(scRNA-seq)已经成为一种对复杂动物组织中存在的多种细胞类型进行区分的有力手段。构建细胞图谱的计算步骤通常包括基于细胞基因表达谱的无监督聚类,然后在得到的聚类中注释已知的细胞类型。关于后一项任务,至少有四项挑战证明该领域的速度有限。

  • 首先,细胞类型注释是劳动密集型的,需要对集群特异性基因进行大量的文献调研。
  • 其次,对分析的任何修改(例如增加数据、调整参数)都需要对以前的所有注释进行手动的重新评估。
  • 第三,细胞类型注释不容易在相关组织的独立组生成的数据集之间传输,导致大量的重复工作。
  • 最后,细胞类型注释通常是临时的;尽管存在细胞类型的本体(ontologies),我们缺乏系统地应用这些本体来注释新的scRNA-seq数据集的工具。

总的来说,这些挑战严重阻碍了对细胞类型理解的发展。为了应对这些挑战,我们设计了Garnett。Garnett四个部分组成。

  • 首先,Garnett定义了一种标记语言(markup language),用它们专门表达的基因来指定细胞类型。在标记语言中一个细胞类型可以有子类型(e.g. CD4+ and CD8+ are subsets of T cells)。
  • 其次,Garnett包含一个解析器,它将标记文件与单细胞数据集一起处理,识别带有标记的代表性细胞,这些标记明确地将它们标识为文件中定义的细胞类型之一。
  • 第三,Garnett训练了一个分类器,它可以根据细胞与代表性细胞的相似性,识别出属于每种细胞类型的额外细胞,类似于我们的团队最近开发的一种方法,用于标注单个细胞小鼠染色质图谱的可达性(sc-ATAC)。重要的是,Garnett并不要求将先执行聚类分析将细胞分成特定的群,但是它可以使用自己的内部分群方法或其他工具(如Monocle9或Seurat)将分类扩展到类型相似的细胞。
  • 最后,Garnett提供了一种方法,将标记文件与在一个数据集上训练的分类器一起应用,以快速地对其他数据集进行注释。

A

Garnett算法概述。有关算法细节,请参见原文方法。简单地说,Garnett将使用标记基因定义细胞类型的标记文件作为输入,并构建一个可以包含细胞子类型的细胞类型层次结构。接下来,Garnett通过比较细胞类型代表细胞,在从树的根开始的每个节点上使用弹性网络多项式回归(elastic net multinomial regression)来训练分类器.最后,Garnett分层地对所有细胞进行分类,并可选地提供第二种扩展的以聚类结果进行分类。

B

10x公司100,000个细胞PBMC数据集的t-SNE图。第一个面板d彩色基于流式细胞仪分选的细胞类型,第二个面板是由cluster-agnostic彩色细胞类型根据Garnett分类,第三个面板是彩色的Garnett的cluster-extended类型、标签细胞基于分群构成。

C

(B)中数据的热图,基于FACS(行)的标签与集群不可知(左)和集群扩展(右)的细胞类型结果。颜色表示某个FACS类型的细胞百分比,每个类型由Garnett标记。

D

10X V2试剂应用于8000个来自健康捐赠者的pbmc。第一个面板是根据使用已知基因标记手动确定的类型着色的。第二个和第三个面板由加内特集群不可知和集群扩展细胞类型分配着色,分配是由根据面板(B)和(C)中显示的数据训练的分类器完成的。


E

与panel (C)类似,(D)中的数据热图。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。



Nature Methods||Supervised classification enables rapid annotation of cell atlases

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容