Scrublet:鉴定单细胞转录组中的doublets

文献标题:Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data

发表时间:April 03, 2019

发表杂志:Cell Systems(IF=8.673)

原文链接:https://doi.org/10.1016/j.cels.2018.11.005

推文作者:李雨晨

摘要

单细胞转录组测序方法可能导致2个或以上的细胞共用一个barcode,形成doublets或multiplets,进而表现出“杂交”(hybrid)的转录组特征。这些doublets可能干扰下游数据分析。作者开发了Scrublet工具,用来鉴定可能的doublets。Scrublet通过在给定数据中模拟doublets,建立最近领域(nearest neighbor)分类器来识别doublets,不需要先验知识或预先聚类。目前Scrublet在github上开源:http://github.com/AllonKleinLab/scrublet

引言

在此之前,主要有两种简单的方法用来排除潜在的doublets:

  1. 去除检测到转录本数量(UMI)过高的细胞。通常效果不佳,因为它需要预先假设所有细胞含有的RNA量相似;
  2. 去除表达不同细胞类型marker基因的聚类。其缺点是需要大量生物学专业知识和对细胞类型的谨慎注释。

定义“内含的”(Embedded)和“新型的“(Neotypic)Multiplets

image

Multiplets对下游分析的影响,部分取决于它们是否来源于具有不同基因表达谱的细胞。作者因此定义了两种主要的multiplets相关错误:

  1. ”Embedded“:multiplets可能来源于转录特征相似的细胞,它们被聚类到一大群主导某特定细胞状态的singlets中,仅仅表现为基因表达定量和丰度的改变。如果这种误差发生率不高,对下游分析的影响应该很小;
  2. ”Neotypic“:multiplets可能源自转录特征不同的细胞,例如不同的细胞谱系、成熟度、空间定位、活化程度等。它们可能形成新的聚类分支,或不同聚类之间的”桥梁“,因此可能在数据推断时导致质变的错误。

在实际操作中,单个multiplet可能被分类为”embeded“或”neotypic“(或其他类型),但其与两类误差的相关程度取决于单细胞数据分析的方式。例如,某种降维方式可能无法区分出multiplets,进而指向”embedded“错误,而另一种降维方式可能成功区分multiplets,进而指向”Neotypic“错误。因此,针对特定的数据分析方法,有效区分neotypic multiplets应该具有可操作性。Scrublet正是为此而生。

Scrublet方法

Scrublet估计neotypic multiplets的比例,通过将随机抽样的单个细胞转录组进行线性结合,生成模拟的multiplets,用于鉴定和移除实际的multiplets。

Scrublet基于两个假设:

  1. 在给定数据所有观察到的单细胞转录组中,multiplets是相对小概率的事件;
  2. 所有造成multiplets的细胞状态同时也存在于数据的singlets中。

基于以上假设,模拟合成的doublets能够用来构建一个”诱捕“的k-nearest neighbor(KNN)分类器,用来鉴定doublets。

当预先知道doublets在全部数据中的期望比例时,分类器能输出某个给定细胞是doublet的后验似然性(posterior likelihood)。然而,doublets的比例难以预先得知。基于模拟doublets的分类器评分大部分是双峰分布,Scrublet据此使用阈值似然性来区分doublets。低分doublets可能提示其难以从singlets中区分,也即”embeded“,而高分doublets可能与singlets状态不同,即”neotypic“。

Scrublet输出以下结果:

  1. 预测的可检测到的doublet比例(A predicted "detectable doublet fraction")\phi_{D}
  2. 每个细胞的doublet评分,也可解释成在该数据中,若给定doublet比例,则某个细胞是doublet的后验似然性
  3. doublet评分的标准误
  4. 每个细胞是否neotypic doublet的二分类标签(True or false)。如果期望doublet比例是 \hat \rho ,那么整个数据中neotypic doublets的比例就是\hat\rho\cdot\phi_{D} ,而 \hat\rho\cdot(1-\phi_{D}) 则是无法检测到的embedded doublets。

在合成模拟的doublets后,Scrublet利用主成分分析(principal-component analysis,PCA)降维,再构建kNN分类器,不需要聚类数据或预先定义细胞marker基因,并且仅用几分钟就能完成上万个细胞的doublet鉴定。

结果

模拟数据

image

作者首先在虚拟数据测试Scrublet的效果。分别进行了以下虚拟:

  1. 针对两个聚类的分离程度进行模拟,结果发现只有当两类细胞的区分度足够明显时,Scrublet才表现出接近99%的真阳性率;
  2. 针对聚类大小的不对称程度进行模拟,结果发现随着不对称性的增加,合成doublets向size大的聚类偏倚,会导致Scrublet无法识别的embedded doublets,然而对neotypic doublets的识别真阳性率仍然有90%;
  3. 针对聚类分支程度进行模拟,如果两个细胞谱系分叉越清晰,Scrublet就更容易识别分支间doublets

真实数据

人-鼠细胞混合样本

image

根据ROC曲线结果,相比于单纯使用转录本数量指标来区分doublets,Scrublet的准确性明显更好。

来自不同捐献者个体的PBMC

image-20210130105650721

单纯比较Total counts(TC)、Marker overlap(M)和Scurblet(S)策略,Scurblet显著优于另外两种策略。但如果将两种策略结合起来,例如S+TC,能进一步提高doublets分类的准确性。然而,这种联合方法可能有数据集依赖性,并且需要额外的参数调整两种策略的权重。

不同细胞浓度的PBMC数据

image

相比于4k细胞的数据,8k数据中预测到的doublets比例几乎翻了一倍,这一点基本符合预期。另外,如果使用8k数据中的doublets预测结果来映射到4k数据,仍然能够将4k数据中的doublets区分出来(聚类1和2)。

造血干祖细胞数据

image

Scrublet能够识别出在不同谱系间形成”桥梁“的doublets,然而需要辅以人工注释才能识别出巨噬细胞-成红细胞doublets。

讨论

Scrublet的效果就不赘述了。基于其底层的假设,Scrublet仍然存在一些不足和限制:

  1. 如果形成doublets的某种细胞类型没有包括在数据中,Scrublet就不能检测到这种特定的doublets。也就是说,数据本身需要较充分地代表样本中的细胞异质性;
  2. Scrublet只能识别出neotypic doublets,而难以识别出包含在主要细胞聚类内部的embedded doublets。然而,作者认为embeded doublets对下游分析的影响较小,检测不到也不要紧。换句话说,如果某些doublets已经可以显著影响下游的聚类分析,那么它通常是形成了不同于任何singlets的转录特征,理应能被Scrublet的算法识别出来;
  3. 根据github的教程,作者不推荐在合并数据集中使用Scrublet,而是应该在各个文库中分别使用Scrublet来去除doublets。

单细胞测序发展至今,已经有多种检测doublets的生信工具被开发出来。其中大多数工具的基础都是利用原数据合成模拟的doublets,将其作为已知参考来鉴别真实数据中的doublets,并且大多强调在单个文库内而非合并的数据集中使用doublet分类工具。然而,Scrublet这篇文章提到将8k PBMC数据的结果映射到4k PBMC数据,进而实现跨数据鉴定doublets;此外,联合诸如UMI总数、细胞类型marker等指标,比起单纯利用合成doublets作为参考进行分类,其准确性能进一步提升。这些都是doublet classifier未来可以改进的方向。事实上,在 Decoding human fetal liver haematopoiesis 这篇文章的某个早期版本中,作者就使用了scrublet先鉴定出明显的doublets,再利用这些doublets结合支持向量机(SVM)来鉴定更多潜在的doublets,详见https://github.com/haniffalab/scRNA-seq_analysis。可见多种方法联合确实是不错的思路。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容