2019-06-30第三天Seurat v3:Comprehensive Integration of Single-Cell Data

title:Comprehensive Integration of Single-Cell Data

journal:cell

IF:36.21

概述:在目前测序进入单细胞分辨率的大背景下,我们对细胞状态的认识也需要与时俱进。由于目前所开发的多种单细胞层面的检测技术(scRNAseq,scATAC,scDNAmythylation,scGENOMIC,single cell s'patial transcriptome,etc)只能从单个层面上解释单细胞的状态,解释得程度非常有限,如scATAC可以反应细胞中增强子的区域和一些调控位点,但无法像转录组一样用无监督的方式确定细胞身份,空间转录组可以反映组织水平上的一些复杂结构,但是无法反应整体的转录水平,这些局限性限制了我们对这些数据的高效利用,因此我们需要一些数据整合的算法,通过将多个层面的特征数据整合,来进一步确定细胞所处的状态,从而更全面地理解细胞的身份及细胞的分类。基于这个目的,作者的团队开发了一个整合的方法。对于单细胞数据的整合可以细分为两个问题,其一是如何将通过不同方法不同个体中得到的多个单细胞数据集整合为一个统一的参考(reference)?(assemble的过程)其二是,如果这个参考可以被建立,那如何合理利用整合后的数据进行更高效的分析?(transfer的过程)在统计学习领域早已经有类似的算法,区域适应(domain adaption)通过识别跨域(domain)的一致性,来把多个数据集的信息映射到同一个空间内(产生reference),而转化学习(transfer learning)可以产生一个于参考数据集(reference)上进行训练的模型,可以将信息再重新投影到query datase上。之前很多方法都被设计出来解决这个问题,比如之前的CCA算法以及之后的基于神经网络的机器学习等,但是这些方法在整合数据时是存在弊端的,包括无法忽视一些技术误差等,同时他们只是根据整合同一类数据集而设计的,不具有普遍性(无法整合不同组学数据),也无法做转化。

作者在此背景下开发了一个流程,可以做到对单细胞多组学数据进行组装建参考(reference assembly)和转化学习(transfer learning),这种方法的基本原理是先在多个数据集中找到相似的细胞,配对形成锚,然后通过锚的定位将多个数据集的信息转化到相同的空间内。这种方法可以忽略一些误差效应的影响,同时可以实现连续数据和离散数据的转化。

软件算法介绍:

先介绍两个容易混淆的定义1、reference / query dataset 指的是用来整合的两个数据集,相互的概念。2、reference atlas(包括上文说的reference assembly),指的是整合完成后两个数据集可以混合到一起,构成的新的数据集。

多种单细胞组学数据反应的是单细胞不同方面的信息,同时这些数据受不同的因素影响,数据集之间无法进行直接比较。因此需要先对这些数据类型进行整合,到同一个空间。整合方法的基础假设是认为一个数据集中存在与另一个数据集相似或相同的信息,即存在同一状态的细胞,而受MNN算法的启发,作者把这类细胞在两个数据集中各使用一个细胞来表征,这一对细胞被称为一个锚,作为两个数据集的桥接。因为MNN算法容易受到一些非生物学变异的影响,因此作者先使用CCA算法做了降维(CCA对于两个数据集中具有相似特征的细胞非常敏感),然后再使用MNN确定了锚,这样的流程可以在存在非生物学变异的条件下实现,当然如果数据集中没有相似状态的细胞时,这个过程是找不到锚的。

锚的质量对于后续分析是非常重要的,如前所述,有些时候是找不到锚的,没有锚对应的细胞则会像噪音一样对后续的结果产生影响,因此作者采用了snn的算法将这些细胞聚类到相似的neighbor中。当然,另一种方法是通过类似的方法对锚进行打分,高分锚代表在两个数据集中匹配效果很好,锚可以和周围的neighbor 吻合。同样的也会把分值低的锚清除掉(低分的应该是两个命运,要不被去掉,要不通过聚类算法归到周围的neighbor中)。锚的确定,筛选和打分是整个过程的第一步(整个过程包括reference assembly,classification,transfer learning)

第二步是构建一个reference,我们需要一个非线性的转化方法来使所有的数据集可以在一个流程中相互比较,这个在概念上类似于批次矫正(batch correction)。另外,每个锚中的两个细胞的表达谱的不同认为是批次效应(因为锚本身就代表相同状态的细胞,如果表达谱不同只能归因于非生物学变异),因此在query dataset中的细胞的表达矩阵需要被矫正,参与矫正的加权平均数向量由两部分构成,一部分是细胞相似性打分,反应的是细胞在低维空间下与锚的距离,一般处于统一状态下的细胞(聚类肯定也靠近),细胞相似性打分都很相似,另一部分是锚打分。获得这个矫正向量后,用query dataset减去这个值后获得的矩阵,可以与reference dataset整合到一起用于后续的降维和聚类。而对多个数据集的算法可以使用迭代的方式完成。

随后作者对这些算法使用示例数据集做了评估,分别多来源、无重复subpopulation及不同软件比较等方面进行评价,发现这个流程都有很好的表现。同时作者分析这个方法的稳定性的来源是由于我们在对锚进行打分的时候,得分低的锚会在后续的权重计算中获得较少的权重,从而降低了它对数据整体的影响。这种方法在处理多个单细胞转录组过程中不仅可以绘制组织的参考图谱,甚至对个体的(多组织)图谱也有很好的表现。

未完(待补充)




模型
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容