title:Comprehensive Integration of Single-Cell Data
journal:cell
IF:36.21
概述:在目前测序进入单细胞分辨率的大背景下,我们对细胞状态的认识也需要与时俱进。由于目前所开发的多种单细胞层面的检测技术(scRNAseq,scATAC,scDNAmythylation,scGENOMIC,single cell s'patial transcriptome,etc)只能从单个层面上解释单细胞的状态,解释得程度非常有限,如scATAC可以反应细胞中增强子的区域和一些调控位点,但无法像转录组一样用无监督的方式确定细胞身份,空间转录组可以反映组织水平上的一些复杂结构,但是无法反应整体的转录水平,这些局限性限制了我们对这些数据的高效利用,因此我们需要一些数据整合的算法,通过将多个层面的特征数据整合,来进一步确定细胞所处的状态,从而更全面地理解细胞的身份及细胞的分类。基于这个目的,作者的团队开发了一个整合的方法。对于单细胞数据的整合可以细分为两个问题,其一是如何将通过不同方法不同个体中得到的多个单细胞数据集整合为一个统一的参考(reference)?(assemble的过程)其二是,如果这个参考可以被建立,那如何合理利用整合后的数据进行更高效的分析?(transfer的过程)在统计学习领域早已经有类似的算法,区域适应(domain adaption)通过识别跨域(domain)的一致性,来把多个数据集的信息映射到同一个空间内(产生reference),而转化学习(transfer learning)可以产生一个于参考数据集(reference)上进行训练的模型,可以将信息再重新投影到query datase上。之前很多方法都被设计出来解决这个问题,比如之前的CCA算法以及之后的基于神经网络的机器学习等,但是这些方法在整合数据时是存在弊端的,包括无法忽视一些技术误差等,同时他们只是根据整合同一类数据集而设计的,不具有普遍性(无法整合不同组学数据),也无法做转化。
作者在此背景下开发了一个流程,可以做到对单细胞多组学数据进行组装建参考(reference assembly)和转化学习(transfer learning),这种方法的基本原理是先在多个数据集中找到相似的细胞,配对形成锚,然后通过锚的定位将多个数据集的信息转化到相同的空间内。这种方法可以忽略一些误差效应的影响,同时可以实现连续数据和离散数据的转化。
软件算法介绍:
先介绍两个容易混淆的定义1、reference / query dataset 指的是用来整合的两个数据集,相互的概念。2、reference atlas(包括上文说的reference assembly),指的是整合完成后两个数据集可以混合到一起,构成的新的数据集。
多种单细胞组学数据反应的是单细胞不同方面的信息,同时这些数据受不同的因素影响,数据集之间无法进行直接比较。因此需要先对这些数据类型进行整合,到同一个空间。整合方法的基础假设是认为一个数据集中存在与另一个数据集相似或相同的信息,即存在同一状态的细胞,而受MNN算法的启发,作者把这类细胞在两个数据集中各使用一个细胞来表征,这一对细胞被称为一个锚,作为两个数据集的桥接。因为MNN算法容易受到一些非生物学变异的影响,因此作者先使用CCA算法做了降维(CCA对于两个数据集中具有相似特征的细胞非常敏感),然后再使用MNN确定了锚,这样的流程可以在存在非生物学变异的条件下实现,当然如果数据集中没有相似状态的细胞时,这个过程是找不到锚的。
锚的质量对于后续分析是非常重要的,如前所述,有些时候是找不到锚的,没有锚对应的细胞则会像噪音一样对后续的结果产生影响,因此作者采用了snn的算法将这些细胞聚类到相似的neighbor中。当然,另一种方法是通过类似的方法对锚进行打分,高分锚代表在两个数据集中匹配效果很好,锚可以和周围的neighbor 吻合。同样的也会把分值低的锚清除掉(低分的应该是两个命运,要不被去掉,要不通过聚类算法归到周围的neighbor中)。锚的确定,筛选和打分是整个过程的第一步(整个过程包括reference assembly,classification,transfer learning)
第二步是构建一个reference,我们需要一个非线性的转化方法来使所有的数据集可以在一个流程中相互比较,这个在概念上类似于批次矫正(batch correction)。另外,每个锚中的两个细胞的表达谱的不同认为是批次效应(因为锚本身就代表相同状态的细胞,如果表达谱不同只能归因于非生物学变异),因此在query dataset中的细胞的表达矩阵需要被矫正,参与矫正的加权平均数向量由两部分构成,一部分是细胞相似性打分,反应的是细胞在低维空间下与锚的距离,一般处于统一状态下的细胞(聚类肯定也靠近),细胞相似性打分都很相似,另一部分是锚打分。获得这个矫正向量后,用query dataset减去这个值后获得的矩阵,可以与reference dataset整合到一起用于后续的降维和聚类。而对多个数据集的算法可以使用迭代的方式完成。
随后作者对这些算法使用示例数据集做了评估,分别多来源、无重复subpopulation及不同软件比较等方面进行评价,发现这个流程都有很好的表现。同时作者分析这个方法的稳定性的来源是由于我们在对锚进行打分的时候,得分低的锚会在后续的权重计算中获得较少的权重,从而降低了它对数据整体的影响。这种方法在处理多个单细胞转录组过程中不仅可以绘制组织的参考图谱,甚至对个体的(多组织)图谱也有很好的表现。
未完(待补充)