Scanorama ---整合单细胞的大数据

2018-07-19每日文献：Panoramic stitching of heterogeneous single-cell transcriptomic data

Abstract

作者提出了一种工具，Scanorama ,利用了全景拼接的算法，将来源于不同技术的单细胞的datasets进行整合。
使用的数据集：105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.

Data and code availability

http://cb.csail.mit.edu/cb/scanorama/
https://github.com/brianhie/scanorama

Main text

文中提到：
Seurat CCA 和 MNN 假设两个数据集之间至少有一种相同的cell type，或者基因表达谱具有相同的相关结构（？？），因此限制了使用。

Scanorama 跟图像拼接类似，也是根据两个数据集overlap的区域来进行batch-correction 和intergration。优势：能够保留数据 specific population，也不需要所有的dataset share相同的cell type。信息的丢失??

利用mutual nearest neighbors matching ，主要能够寻找两个数据集的相似部分，而不是整个大数据中的相似部分。MNN ，针对多于两个datasets的比对，先选择一个作为reference，之后将其他的datasets和这个datasets做integrate，所以整合的效果很看重数据的顺序

Scanorama 的两个关键性步骤：1.使用SVD（singular value decomposition）将高维的数据降维。2.基于超敏感局部敏感散列和随机投影树来构建近邻法，节约时间。

接下来，使用模拟和真实的数据集进行模拟，真实的数据集包括：293T cell and Jurkat cells,HSC data，pancreas data，105476 cells dataset.

文章重点强调：1.相同的细胞类型能merge在一起，2.保留数据集独特的细胞。3.根据alignment genes来监控两个数据的比对。4.运行速度快。十万细胞只需要25分钟（10核，384GB RAM）。

20180720-1.png

疑问：

1.可以尝试使用它来做整个物种数据的大图，数据的整合可以用，但是对于其normalization的方法以及是否能够找markers存在疑问。
2.好奇它与MNN 之间的差异，都是使用mutual nearest neighbor，区别到底在哪里？？

需要尝试使用

最后编辑于：2018.07.20 10:38:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Scanorama ---整合单细胞的大数据