Seurat Tutorial 4：映射和注释查询数据集

写在前面

学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度，分享官方文档的中文教程。软件可能随时更新，建议配合官方文档一起阅读。推荐先按顺序阅读往期内容：
文献篇：
1.文献阅读：(Seurat V1) 单细胞基因表达数据的空间重建
 2.文献阅读：(Seurat V2) 整合跨越不同条件、技术、物种的单细胞转录组数据
 3.文献阅读：(Seurat V3) 单细胞数据综合整合
 4.文献阅读：(Seurat V4) 整合分析多模态单细胞数据
 5.文献阅读：(Seurat V5) 用于集成、多模态和可扩展单细胞分析的字典学习
教程篇：
1.Seurat Tutorial 1：常见分析工作流程，基于 PBMC 3K 数据集
 2.Seurat Tutorial 2：使用 Seurat 分析多模态数据
 3.Seurat Tutorial 3：scRNA-seq 整合分析介绍

::: block-1

1 单细胞参考映射介绍

在本节，我们首先构建一个 integrated reference，然后演示如何利用这个 reference 来注释新的 query datasets。生成 integrated reference 的详细步骤见 Introduction to scRNA-seq integration。生成后，此 reference 可用于通过细胞类型标签传输和将 query cells 投影到 reference UMAP 等任务来分析其他 query datasets。值得注意的是，这不需要矫正原始的 query data，因此如果有高质量的 reference，这可能是一种有效的策略。

2 数据集预处理

出于本示例的目的，我们选择了通过四种技术产生的人类胰岛细胞数据集，即 CelSeq (GSE81076)、CelSeq2 (GSE85241)、Fluidigm C1 (GSE86469), and SMART-Seq2 (E-MTAB-5061)。为方便起见，我们通过 SeuratData 包分发此数据集。metadata 包含四个数据集中每个细胞的技术（tech column）和细胞类型注释（celltype column）。

library(Seurat)
library(SeuratData)

InstallData("panc8")

为了构建 reference，我们将识别各个数据集之间的 'anchors'。首先，我们将组合对象拆分为一个 list，每个数据集作为一个元素（这只是必要的，因为数据被捆绑在一起以便于分发）。

data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]
pancreas.list
# $celseq
# An object of class Seurat 
# 34363 features across 1004 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $celseq2
# An object of class Seurat 
# 34363 features across 2285 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $fluidigmc1
# An object of class Seurat 
# 34363 features across 638 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $smartseq2
# An object of class Seurat 
# 34363 features across 2394 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

在找到 anchors 之前，我们执行标准预处理（log-normalization），并为每个 anchors 单独识别可变特征。请注意，Seurat 实现了一种改进的基于方差稳定变换（vst）的变量特征选择方法。

for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, verbose = FALSE)
}

3 三个胰岛细胞数据集的整合

接下来，我们使用 FindIntegrationAnchors() 函数识别 anchors，该函数将 Seurat 对象列表作为输入。在这里，我们将其中三个对象整合到一个 reference 中（稍后我们将在本小节中使用第四个对象作为查询数据集来演示映射）。

我们在这里使用所有默认参数来识别 anchors，包括数据集的“维度”（30；随意尝试在很宽的范围内更改此参数，例如在 10 到 50 之间）。

reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后我们将这些 anchors 传递给 IntegrateData() 函数，该函数返回一个 Seurat 对象。

返回的对象将包含一个新的Assay，其中包含所有细胞的 integrated（or ‘batch-corrected’）表达矩阵，使它们能够被联合分析。

pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行 IntegrateData() 后，Seurat 对象将包含一个带有 integrated 表达矩阵的新 Assay。请注意，原始（未校正的值）仍存储在对象的“RNA”assay 中，因此您可以来回切换。

然后我们可以使用这个新的 integrated 矩阵进行下游分析和可视化。在这里，我们 scale integrated 数据，运行 PCA，并使用 UMAP 可视化结果。integrated 的数据集按细胞类型而不是技术进行聚类。

library(ggplot2)
library(cowplot)
library(patchwork)

# 切换到 integrated assay。该 assay 的可变特征在整合数据过程中自动设置
DefaultAssay(pancreas.integrated) <- "integrated"

# 运行可视化和聚类的标准工作流程
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) +
    NoLegend()
p1 + p2

4 使用整合参考进行细胞类型分类

Seurat 还支持将 reference data（or meta data）投射到 query object。虽然许多方法是保守的（两个过程都从识别 anchors 开始），但数据 transfer 和 integration 之间有两个重要区别：

In data transfer, Seurat 不会更正或修改 query expression data。
In data transfer, Seurat 有一个选项（set by default）将 reference 的 PCA 结构投射到 query 上，而不是使用 CCA 学习联合结构。我们通常建议在 scRNA-seq 数据集之间投射数据时使用此选项。

找到 anchors 后，我们使用 TransferData() 函数根据 reference data（参考细胞类型标签的向量）对 query cells 进行分类。TransferData() 返回一个包含预测 ID 和预测分数的矩阵，我们可以将其添加到 query metadata 中。

pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, dims = 1:30, reference.reduction = "pca")
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有来自完整 integrated 分析的原始标签注释，所以我们可以评估我们预测的细胞类型注释与完整参考的匹配程度。在这个例子中，我们发现细胞类型分类的一致性很高，超过 96% 的细胞被正确标记。

pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)
## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点，我们可以检查特定胰岛细胞群的一些典型细胞类型标记。请注意，即使其中一些细胞类型仅由一两个细胞表示（e.g. epsilon cells），我们仍然能够正确分类它们。

table(pancreas.query$predicted.id)
## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5

VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

5 单峰 UMAP 投影

在 Seurat v4 中，我们还启用了将 query 投影到 reference UMAP 结构上。这可以通过计算 reference UMAP 模型然后调用 MapQuery() 而不是 TransferData() 来实现。

pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

MapQuery 在做什么？

MapQuery() 是三个函数的包装：TransferData()、IntegrateEmbeddings() 和 ProjectUMAP()。TransferData() 用于传输细胞类型标签并估算 ADT 值；IntegrateEmbeddings() 用于通过纠正查询的投影低维嵌入来整合 reference 与 query；最后使用 ProjectUMAP() 将查询数据投影到 reference 的 UMAP 结构上。使用中间函数执行此操作的等效代码如下：

pancreas.query <- TransferData(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"))
pancreas.query <- IntegrateEmbeddings(anchorset = pancreas.anchors, reference = pancreas.integrated,
    query = pancreas.query, new.reduction.name = "ref.pca")
pancreas.query <- ProjectUMAP(query = pancreas.query, query.reduction = "ref.pca", reference = pancreas.integrated,
    reference.reduction = "pca", reduction.model = "umap")

我们现在可以在 reference 旁边可视化 query cells。

p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3,repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2

Seurat Tutorial 4：映射和注释查询数据集