文献学习003--[sc]14种批次去除算法的比较

一. 研究背景

使用不同技术生成的大规模单细胞转录组dataset,批次效应特殊的系统变化对批次效应效果的去除和dataset成提出了挑战。随着scRNA-seq数据的持续增长,实现计算器资源的有效批次集成是至关重要的。在这里,作者对批次效应校正算法的基准进行了深入的研究,以确定最适合去除批次效应的算法。

二. 分析流程

三.结果解读

1.使用5个评估指标对十个dataset的14种整合方法进行全面测评
图1 基于10个数据集,使用5个评估指标对14个算法进行基准测试。作者使用t-SNE和UMAP可视化技术,结合kBET、LISI、ASW、ARI和DEG等基准度量来评估14种算法在保持细胞亚群分离准确性的同时进行批次集成的能力。所用的数据集涵盖了人和小鼠不同类型的细胞,如树突状细胞、胰腺细胞、视网膜细胞和外周血单核细胞(PBMCs)等。所使用的技术范围也很广,包括10x、SMART-seq、Drop-seq和SMARTer等。
表1.十四种批次效应校正算法描述
2.不同情形下对校正方法进行评估
2.1 情形一:不同的方法对同一细胞类型的批次校正
  • 使用UMAP可视化技术对dataset2(小鼠细胞)进行的14种批次效应校正算法,并对校正结果进行定性评价。
图2. 每种算法下有两行图,第一行是依据细胞批次来着色,在第二行中是按细胞类型来着色。(下文后续的操作类似)

结果显示:Seurat 2,Seurat 3,HarmonyfastMNN等方法降维后亚群聚类情况较好 。

  • 使用ASW、ARI、LISI和kBET等四个评估指标对“dataset2”14种批次效应效应校正算法进行定量评估

结果显示,综合对批次集成和细胞亚群纯度的四项指标评估结果中,Harmony算法的排名都比较靠前。

  • 使用UMAP可视化对dataset5(人外周血单个核细胞)进行的14种批次效应校正算法,并对校正结果进行定性评价。

图4结果显示: scGenMMD-ResNetLIGER的降维后亚群聚类情况较好。

  • 使用4个评估指标对dataset5的14种批次效应校正算法进行定量评估

结果显示HarmonySeurat 3LIGER去批次效应结果较好。

小结:对于这两个dataset(人PBMCs和鼠细胞图谱),HarmonySeurat 3LIGER是首选的三种算法。

2.2 情形二:每个批次的细胞类型不完全相同
  • 利用UMAP对dataset1(人树突状细胞)的14种批次效应校正算法进行评估
dataset1在不同的批次中存在两个高度相似的细胞类型。

对可视化图的检验表明,大多数算法可以将两个批次的细胞混合在一起。不过,limma使两个批次的细胞簇接近,但没有实现混合,而MMD-ResNet和BBKNN无法混合常见类型的细胞簇。

  • 使用4个评估指标对dataset1的14种批次效应效应校正算法进行定量评估

结果显示:对于dataset1,综合四项指标,fastMNN是最优的算法,其次是LIGERscMerge

  • 使用UMAP对dataset6的14种批次效应校正算法进行评估
dataset6只包含两个细胞类型

结果显示scGenscMergeBBKNN的降维聚类效果较好。

  • 使用4个评估指标对dataset6的14种批次效应效果校正算法进行定量评估

综合4个评价指标来看,Harmony是最优算法,其次是ScanoramascGen

  • 使用UMAP对dataset7(小鼠视网膜细胞)的14种批次效应校正算法进行定量评价
dataset7的不同批次中,细胞类型很不均匀。

结果显示:ComBatlimma处理后的降维聚类效果较优。

  • 使用ASW、ARI、LISI和kBET四个评估指标对dataset7的14种批次效应评估

结果显示LIGER是此次最优的算法,其次是MNN CorrectscMerge

  • 利用UMAP可视化技术对dataset10(小鼠造血干细胞和祖细胞)的14种批次效应校正算法进行定量评价

结果显示:Seurat 2Seurat 3HarmonyScanoramaLIGER处理的降维聚类效果较优。

  • 使用ASW、ARILISI和kBET四个评估指标对dataset10的14种批次效应校正算法进行定量评估

综合四个指标来看,HarmonyScanoramaLIGER是该dataset的较优算法。

小结:

在情形二中,作者在四个不同的dataset上评估了14种批次效应校正算法。

虽然没有一种算法对所有dataset都是最优的,但LIGER是dataset1,7,10的较优算法,而scMerge在dataset1,6,7中排名第三。Harmony在dataset6和10中排名第一,而Scanorama在dataset6和10中排名第二。

基于这些结果,LIGER是这个情形的较优算法。

2.3 情形三:存在多个批次(测试了多个批次下的批次效应校正能力)
  • 使用UMAP可视化技术对dataset4(人胰腺细胞)的14种批次效应校正算法进行定性评价
dataset4的人胰腺细胞包括五个批次

结果显示:Seurat 3HarmonyscGenLIGER处理后的降维聚类效果更优。

  • 使用ASW、ARI、LISI和kBET四个评估指标对dataset4的14种批次效应效应校正算法进行定量评估

综合四项指标,Seurat 3是较优的算法,其次是scGenscMerge

情形2中分析dataset6(也包括了两个以上的批次)中整合效果较好的前几名依次是Harmony、Scanorama、scGen和scMerge。

⚠️所以综合dataset4和6的评估情况来看,作者给出的建议是:

  • 对于已标记细胞类型的dataset,建议使用scGen
  • 对于未标记细胞类型的dataset,推荐使用Seurat 3Harmony
2.4 情形四:处理的数据集很大(在两个大dataset上测试这些算法)
  • 用UMAP可视化技术对dataset8(小鼠大脑)的14种批次效应校正算法进行定量评价

结果显示:只有LIGER在实现分批混合的同时,保持了较好的细胞类型分离。

  • 使用ASW、ARI、iLISI和kBET四个评估指标对dataset8的14种批次效应效应校正算法进行定量评估

综合四项指标显示:最优的是Seurat 3,其次是scGenSeurat 2

  • 使用UMAP可视化技术对dataset9(人类细胞图谱)的14种批次效应校正算法进行定量评价
dataset9由两个数据批次组成,每个数据批次来自不同的组织。由于缺乏细胞类型信息,只能评估批次混合能力。
  • 除了scMerge、limma和Scanorama,大多数算法都能够均匀混合批次。
图19.使用ASW、ARI、LISI和kBET四种评估指标对dataset9的14种批次效应效应校正算法进行定量评估

综合四项指标,排名前三的算法依次是LIGERZINB-WaVEMMD-ResNet

因此LIGERZINB-WaVEMMD-ResNet这三种算法都被推荐用于大型的dataset。

2.5 情形五:DEG评估
  • 利用模拟dataset和差异基因表达分析评价八种批次效应校正算法

图20A:作者按所示的DEG分析工作流程,对8个算法进行了评估。
使用Splatter包生成6组具有预定义批次效应效果和差异基因表达谱的模拟数据。
使用Seurat包对校正后的数据进行差异基因表达分析。
批次效应校正的矩阵中识别的差异表达基因(DEGs)与ground truth DEGs进行比较,并计算精度、Recall和F-score等指标。

图20B:为图20A中用到的6个模拟dataset,并对drop-out值和批次的情况作了展示。

图20C:计算了上调和下调基因的F-score。根据F-score,MNN Correct,ZINB-WaVE,ComBat和scMerge是表现最好的方法。

简单来说,若想获得一个用于下游分析批次效应校正矩阵的话,ComBatMNN CorrectZINB-WaVEscMerge是作者推荐的算法。

3. 整合上述分析结果

十四种批次效应校正算法的有效性和效率

图21A:根据ASW、ARI、LISI和kBET指标对算法进行评估,然后使用秩和算法对所有指标进行排序。
山脊线的高度表示不同dataset的rank和score,rank和score越低表示性能越好。即出现在底部的HarmonyLIGERSeurat 3是总体得分最高的三种算法。

图21B:对于dataset8的十四种算法的内存使用情况。

图21C:展示了14种算法处理时需要的时间。

小结

本文作者基于10个人和鼠的dataset,使用t-SNE和UMAP可视化技术,结合kBET、LISI、ASW、ARI和DEG等基准度量,来评估对14种去批次效应算法的批次效应校正结果。

不同情形下推荐的去批次效应算法总结:

情形 推荐的去批次效应算法
不同的技术处理下相同细胞类型的批次 Harmony、Seurat 3、LIGER
每个批次的细胞类型不完全相同 LIGER、Harmony
有多个批次 Harmony、Scanorama、scGen、scMerge
处理的数据集很大 LIGER、ZINB-WaVE、MMD-ResNet
用于下游分析批次效应校正矩阵 ComBat、MNN Correct、ZINB-WaVE、scMerge
综合以上 Harmony、LIGER和Seurat 3
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容