2018-07-19每日文献:Panoramic stitching of heterogeneous single-cell transcriptomic data
Abstract
作者提出了一种工具,Scanorama ,利用了全景拼接的算法,将来源于不同技术的单细胞的datasets进行整合。
使用的数据集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.
Data and code availability
http://cb.csail.mit.edu/cb/scanorama/
https://github.com/brianhie/scanorama
Main text
文中提到:
Seurat CCA 和 MNN 假设两个数据集之间至少有一种相同的cell type, 或者基因表达谱具有相同的相关结构(??),因此限制了使用。
Scanorama 跟图像拼接类似,也是根据两个数据集overlap的区域来进行batch-correction 和intergration。 优势:能够保留数据 specific population,也不需要所有的dataset share相同的cell type。信息的丢失??
利用mutual nearest neighbors matching ,主要能够寻找两个数据集的相似部分,而不是整个大数据中的相似部分。MNN ,针对多于两个datasets的比对,先选择一个作为reference,之后将其他的datasets和这个datasets做integrate,所以整合的效果很看重数据的顺序
Scanorama 的两个关键性步骤:1.使用SVD(singular value decomposition) 将高维的数据降维。2.基于超敏感局部敏感散列和随机投影树来构建近邻法,节约时间。
接下来,使用模拟和真实的数据集进行模拟,真实的数据集包括:293T cell and Jurkat cells,HSC data,pancreas data,105476 cells dataset.
文章重点强调:1.相同的细胞类型能merge在一起,2.保留数据集独特的细胞。3.根据alignment genes来监控两个数据的比对。4.运行速度快。十万细胞只需要25分钟(10核,384GB RAM)。
疑问:
1.可以尝试使用它来做整个物种数据的大图,数据的整合可以用,但是对于其normalization的方法以及是否能够找markers存在疑问。
2.好奇它与MNN 之间的差异,都是使用mutual nearest neighbor,区别到底在哪里??
需要尝试使用