Scanorama ---整合单细胞的大数据

2018-07-19每日文献:Panoramic stitching of heterogeneous single-cell transcriptomic data

Abstract

作者提出了一种工具,Scanorama ,利用了全景拼接的算法,将来源于不同技术的单细胞的datasets进行整合。
使用的数据集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.

Data and code availability

http://cb.csail.mit.edu/cb/scanorama/
https://github.com/brianhie/scanorama

Main text

文中提到:
Seurat CCA 和 MNN 假设两个数据集之间至少有一种相同的cell type, 或者基因表达谱具有相同的相关结构(??),因此限制了使用。

Scanorama 跟图像拼接类似,也是根据两个数据集overlap的区域来进行batch-correction 和intergration。 优势:能够保留数据 specific population,也不需要所有的dataset share相同的cell type。信息的丢失??

利用mutual nearest neighbors matching ,主要能够寻找两个数据集的相似部分,而不是整个大数据中的相似部分。MNN ,针对多于两个datasets的比对,先选择一个作为reference,之后将其他的datasets和这个datasets做integrate,所以整合的效果很看重数据的顺序

Scanorama 的两个关键性步骤:1.使用SVD(singular value decomposition) 将高维的数据降维。2.基于超敏感局部敏感散列和随机投影树来构建近邻法,节约时间。

接下来,使用模拟和真实的数据集进行模拟,真实的数据集包括:293T cell and Jurkat cells,HSC data,pancreas data,105476 cells dataset.

文章重点强调:1.相同的细胞类型能merge在一起,2.保留数据集独特的细胞。3.根据alignment genes来监控两个数据的比对。4.运行速度快。十万细胞只需要25分钟(10核,384GB RAM)。

20180720-1.png

疑问:

1.可以尝试使用它来做整个物种数据的大图,数据的整合可以用,但是对于其normalization的方法以及是否能够找markers存在疑问。
2.好奇它与MNN 之间的差异,都是使用mutual nearest neighbor,区别到底在哪里??

需要尝试使用

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,142评论 1 32
  • *面试心声:其实这些题本人都没怎么背,但是在上海 两周半 面了大约10家 收到差不多3个offer,总结起来就是把...
    Dove_iOS阅读 27,211评论 30 472
  • 【反应第二】(2.2) 人言者,动也;已默者,静也。因其言,听其辞。言有不合者,反而求之,其应必出。言有象,事有比...
    猎人2016阅读 549评论 0 0
  • 这是智先生的第23篇原创文章 01 在腥风血雨的江湖上,传销组织被分为南派和北派。 北派崇尚暴力,以监禁为主,并切...
    智_先生阅读 26,217评论 30 71