测试单转+空转联合分析工具的文章
- Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution
- 2022年6月发表于nature method
背景:
- 原位杂交,荧光显微镜(图像基础)
- 优点:高分辨率、高精确性,
- 缺点:低通量
- 方法:seqFISH, osmFISH, MERFISH
- 高通量测序
- 优点:高通量、
- 缺点低分辨率
- 方法:ST, 10X Visium, and Slide-seq
- 综上所述,需要能够同时具有高通量、高分辨率的工具,所以出现了单转+空转联合分析的各种工具。本文通过45组真实数据和32组模拟数据来测试16个工具。
工具简介
gimVI 深度生成模型
SpaGE K邻近回归
Tangram 非凸优化、深度学习框架
seuart 典型关联分析,把单细胞数据映射到空转的spot里面
LIGER 非负矩阵分解、shared factor neighborhood graphs (共享因子邻接图)
novoSpaRc and SpaOTsc 最优运输,基于单转数据建立空间矩阵
stPlus 自编码、加权K邻近算法
Seurat, Tangram, novoSpaRc和SpaOTsc 可以把单转数据分配到组织切片位置中
Cell2location 评估每个spot的细胞类型丰度
RCTD 通过单转的细胞类型文件和监督学习来分解细胞混杂物
SpatialDWLS 加权最小二乘
Stereoscope 基于模型的概率方法和单转数据,反卷积细胞混杂物
SPOTlight 非负矩阵分解,反卷积spot
DSTG 图卷积神经网络,反卷积空转数据
STRIDE 由单转数据训练的文件,分解细胞混杂物
DestVI 变分推理、隐变量模型,描述细胞类型比例
评分标准
- 精确度评分
- 稳健性
- 计算机资源消耗
测试的数据
- 45组数据(单转+空转)
-
32组模拟数据,低分辨率,和10X Visium或ST相似。
工具作用
Tangram, gimVI, SpaGE, Seurat, SpaOTsc, novoSpaRc,LIGER,stPlus 预测RNA转录本的空间分布
Tangram, Seurat, SpaOTsc, novoSpaRc 把单转数据对应到空转的位置中
Cell2location, SpatialDWLS, RCTD, Stereoscope, DestVI, STRIDE, SPOTlight, and DSTG 结合单转和空转,预测spot的细胞组成
- 2 和3的12种方法可以对spot中的细胞类型进行反卷积
预测RNA转录本空间分布的方法
十折交叉验证,预测的基因表达量和真实的表达量之间的皮尔逊相关系数(PCC),PCC越高,则工具表现越好。
首先验证已发表的标记基因的空转结果,例如Igsf21、Rprm 在皮层L5/L6中高表达。
-
选取dataset 4 (seqFISH+; Smart-seq; mouse cortex),
Igsf21- Tangram PCC=0.79
- gimVI PCC=0.77
- SpaGE PCC=0.71
-
Seurat PCC=0.70
Rprm
- SpaGE 0.79
- Seurat 0.79
-
SpaOTsc, gimVI, Tangram, and LIGER (PCC=0.78, 0.71, 0.66, 0.65)
-
dataset 42 (ST; 10X Chromium; human squamous carcinoma).
COL17A1是鳞状癌基底细胞的标记基因- PCC 0.86 (Tangram), 0.84 (gimVI), 0.76 (novoSpaRc), and 0.70 (SpaGE),PCC值明显高于另外四个工具
为了进一步量化预测精度
- SSIM(它结合了平均值、方差和协方差来衡量预测结果与实际情况之间的相似性)
- RMSE(真实值和预测分布的绝对误差)
- JS(相对信息熵衡量两个分布之间的差异)
对于一个基因,PCC/SSIM 越大;RMSE/JS越低,则预测精度越高,综合上述四种指标,用AS来评价精确性评分
对于data4,Tangram、gimVI AS分数最高,高于其他工具
对于45组数据 + 32组模拟数据,Tangram仍然是表现最好的集成方法,其次是gimVI和SpaGE
- 10X Visium, seqFISH, MERFISH, and Slide-seq 四种平台的数据
Tangram、gimVI,SpaGE优于其他方法
Tangram和gimVI 对于Slide-seq 数据集的处理优于其他方法
归一化对性能的影响
- Seurat, LIGER, SpaGE, stPlus 默认归一化数据
- 原始空转数据R、原始单转数据R、归一化空转数据N、归一化单转数据N
- 四种组合中,对于各种工具R-R的组合有更高的PCC值
- 无论是哪种组合,Tangram 都比其他工具强
稀疏矩阵的影响
对于数据集12、13、40和44,所有8种集成方法在预测转录本空间分布方面的准确性都很低(即平均PCC/SSIM<0.3)
8种方法的JS值都随着表达矩阵稀疏度的增大呈线性增加
为了评估稀疏矩阵的影响,用marker gene : Cplx1 在皮层L5中高表达
Tangram,gimVI,SpaGE PCC>0.7 表现很好
稳健性
- 稳健性得分:PCC阈值0.5的原始数据和下采样数据的转录本比例
- RS值随着下采样率的增加而降低,Tangram和gimVI,SpaGE表现优于其他工具
反卷积的测试
为了确定空转中spot的细胞类型占比,模拟了数据集
RCTD and Stereoscope (0.87), Tangram (0.85)spot中细胞类型组成,RCTD AS score (0.94) Stereoscope (0.92).
-
dataset 4 (seqFISH+; Smart-seq; mouse cortex)
- SpatialDWLS, Tangram, RCTD 位居第一、第二、第三
为了进一步量化12个工具在模拟数据集中的性能(novoSpaRc and SpaOTsc 需要空间位置信息,但是模拟数据中没有,所以排除他俩)剩下10个工具
Cell2location, SpatialDWLS, RCTD, STRIDE 表现最佳, spot中的细胞类型组成
计算机资源消耗
gimVI and Tangram 支持显卡,但是对于data40 19,522 spots and 26,252 cells ,NVIDIA Tesla K80 with 12 GB 内存不够报错
Seurat和LIGER处理每个数据集的CPU时间不到10分钟,而Tangram和LIGER 总共占用了不到32gb的内存
总的来说Seurat的计算效率最高
用下面的数据测试
- number of cells in scRNA-seq data, the number of spots in spatial data, and the number of cell types
- Tangram and Seurat是效率最高的两个
综上所述
- Tangram, gimVI, and SpaGE 在转录本的空间分布中表现优秀
- Cell2location, SpatialDWLS, RCTD 在spots的细胞类型组成中表现优秀
- Tangram 、Seurat 对于计算机资源消耗相对较少