8.1 简介
随着可用的scRNA-seq数据集越来越多,在它们之间进行合并比较是关键。比较scRNA-seq数据集有两种主要方法。第一种方法是“以标签为中心”,其重点是通过比较单个细胞或细胞群来识别数据集中的等效细胞类型/状态。另一种方法是“跨数据集标准化”,它试图通过计算消除实验特定的技术/生物效应,以便可以合并分析来自多个实验的数据。
以标签为中心的方法可以用于具有高置信度细胞注释的数据集,例如人类细胞图谱(HCA)或Tabula Muris,将新样本中的细胞或cluster映射到此参考上,以考虑组织成分和/或识别具有新/未知身份的细胞。从概念上讲,这种映射类似于流行的BLAST方法,该方法可以快速在数据库中找到与新识别的核苷酸或氨基酸序列最接近的匹配。以标签为中心的方法还可用于比较不同实验室收集的类似生物来源的数据集,以确保注释和分析的一致性。
跨数据集标准化方法也可用于比较类似生物来源的数据集。与以标签为中心的方法不同,它可以对多个数据集进行联合分析,以便识别在每个单独的数据集中采样过于稀疏而无法可靠检测到的稀有细胞类型。然而,跨数据集标准化不适用于非常大且多样化的参考,因为它假设每个数据集中的很大一部分生物变异与其他数据集重叠。
8.2 基于MNN的方法
mnnCorrect校正数据集以便于联合分析。为了解释两次重复或两个不同实验之间的组成差异,它首先在实验中比对单个细胞以找到重叠的生物结构。利用这种重叠,可以了解哪些维度的表达对应于生物状态,哪些维度对应于批次/实验效果。mnnCorrect假设这些维度在高维表达空间中彼此正交。最后,它从整个表达矩阵中删除批次/实验效应以返回校正后的矩阵。
为了在数据集之间将单个细胞彼此比对,mnnCorrect使用余弦距离来消除文库大小的影响,然后识别数据集之间的相互最近邻(k
决定邻域大小)。只有重叠的生物群体才应该有相互最近邻(见下图b)。这假设k设置为大约数据集中最小生物群的大小,但是,如果k太小,则会识别出过少的相互最近邻对,从而无法很好地估计我们想要消除的批次效应。
评估生物/技术效应是通过奇异值分解(SVD)来完成的,类似于我们在批次校正部分遇到的RUV,或者使用优化的irlba包进行主成分分析,应该快于SVD。svd.dim
指定应保留多少个维度来概括数据的生物结构,我们将其设置为3个,因为我们上面使用Metaneighbor发现了3个主要群体。这些估计值可以通过平滑(sigma
)和/或方差调整(var.adj
)进一步调整。
8.3 典型相关分析(CAA)(Seurat v3)
Seurat
包含另一种用于整合多个数据集的方法,称为典型相关分析(CCA)。然而,与mnnCorrect
不同,它并不直接校正表达矩阵本身。相反,Seurat
会为每个数据集找到一个较低维数的子空间,然后校正这些子空间。与mnnCorrect
不同的是,Seurat
每次只整合一对数据集。
Seurat利用基因-基因相关性通过一种称为典型相关分析(CCA)的方法识别数据集中的生物结构。Seurat学习基因与基因之间关联的共享结构,然后评估每个细胞与该结构的契合程度。共享结构不能很好地描述的细胞被认为是数据集特定的细胞类型/状态,在对齐两个数据集之前将其丢弃。最后,使用“扭曲”算法将两个数据集对齐,该算法以一种对种群密度差异具有鲁棒性的方式对每个数据集的降维表示进行标准化。
往期内容:
重生之我在剑桥大学学习单细胞RNA-seq分析——7. 使用Seurat进行单细胞RNA测序分析(1)
重生之我在剑桥大学学习单细胞RNA-seq分析——7. 使用Seurat进行单细胞RNA测序分析(2)
重生之我在剑桥大学学习单细胞RNA-seq分析——7. 使用Seurat进行单细胞RNA测序分析(3)
重生之我在剑桥大学学习单细胞RNA-seq分析——7. 使用Seurat进行单细胞RNA测序分析(4)