Seurat Tutorial 4:映射和注释查询数据集

写在前面

学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度,分享官方文档的中文教程。软件可能随时更新,建议配合官方文档一起阅读。推荐先按顺序阅读往期内容:
文献篇:
1.文献阅读:(Seurat V1) 单细胞基因表达数据的空间重建
2.文献阅读:(Seurat V2) 整合跨越不同条件、技术、物种的单细胞转录组数据
3.文献阅读:(Seurat V3) 单细胞数据综合整合
4.文献阅读:(Seurat V4) 整合分析多模态单细胞数据
5.文献阅读:(Seurat V5) 用于集成、多模态和可扩展单细胞分析的字典学习
教程篇:
1.Seurat Tutorial 1:常见分析工作流程,基于 PBMC 3K 数据集
2.Seurat Tutorial 2:使用 Seurat 分析多模态数据
3.Seurat Tutorial 3:scRNA-seq 整合分析介绍


::: block-1

目录

  • 1 单细胞参考映射介绍
  • 2 数据集预处理
  • 3 三个胰岛细胞数据集的整合
  • 4 使用整合参考进行细胞类型分类
  • 5 单峰 UMAP 投影
    :::

官网教程:https://satijalab.org/seurat/articles/integration_mapping

1 单细胞参考映射介绍

在本节,我们首先构建一个 integrated reference,然后演示如何利用这个 reference 来注释新的 query datasets。生成 integrated reference 的详细步骤见 Introduction to scRNA-seq integration。生成后,此 reference 可用于通过细胞类型标签传输和将 query cells 投影到 reference UMAP 等任务来分析其他 query datasets。值得注意的是,这不需要矫正原始的 query data,因此如果有高质量的 reference,这可能是一种有效的策略。

2 数据集预处理

出于本示例的目的,我们选择了通过四种技术产生的人类胰岛细胞数据集,即 CelSeq (GSE81076)、CelSeq2 (GSE85241)、Fluidigm C1 (GSE86469), and SMART-Seq2 (E-MTAB-5061)。为方便起见,我们通过 SeuratData 包分发此数据集。metadata 包含四个数据集中每个细胞的技术(tech column)和细胞类型注释(celltype column)。

library(Seurat)
library(SeuratData)

InstallData("panc8")

为了构建 reference,我们将识别各个数据集之间的 'anchors'。首先,我们将组合对象拆分为一个 list,每个数据集作为一个元素(这只是必要的,因为数据被捆绑在一起以便于分发)。

data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]
pancreas.list
# $celseq
# An object of class Seurat 
# 34363 features across 1004 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $celseq2
# An object of class Seurat 
# 34363 features across 2285 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $fluidigmc1
# An object of class Seurat 
# 34363 features across 638 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $smartseq2
# An object of class Seurat 
# 34363 features across 2394 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

在找到 anchors 之前,我们执行标准预处理(log-normalization),并为每个 anchors 单独识别可变特征。请注意,Seurat 实现了一种改进的基于方差稳定变换(vst)的变量特征选择方法。

for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, verbose = FALSE)
}

3 三个胰岛细胞数据集的整合

接下来,我们使用 FindIntegrationAnchors() 函数识别 anchors,该函数将 Seurat 对象列表作为输入。在这里,我们将其中三个对象整合到一个 reference 中(稍后我们将在本小节中使用第四个对象作为查询数据集来演示映射)。

  • 我们在这里使用所有默认参数来识别 anchors,包括数据集的“维度”(30;随意尝试在很宽的范围内更改此参数,例如在 10 到 50 之间)。
reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后我们将这些 anchors 传递给 IntegrateData() 函数,该函数返回一个 Seurat 对象。

  • 返回的对象将包含一个新的Assay,其中包含所有细胞的 integrated(or ‘batch-corrected’)表达矩阵,使它们能够被联合分析。
pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行 IntegrateData() 后,Seurat 对象将包含一个带有 integrated 表达矩阵的新 Assay。请注意,原始(未校正的值)仍存储在对象的“RNA”assay 中,因此您可以来回切换。

然后我们可以使用这个新的 integrated 矩阵进行下游分析和可视化。在这里,我们 scale integrated 数据,运行 PCA,并使用 UMAP 可视化结果。integrated 的数据集按细胞类型而不是技术进行聚类。

library(ggplot2)
library(cowplot)
library(patchwork)

# 切换到 integrated assay。该 assay 的可变特征在整合数据过程中自动设置
DefaultAssay(pancreas.integrated) <- "integrated"

# 运行可视化和聚类的标准工作流程
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) +
    NoLegend()
p1 + p2

4 使用整合参考进行细胞类型分类

Seurat 还支持将 reference data(or meta data)投射到 query object。虽然许多方法是保守的(两个过程都从识别 anchors 开始),但数据 transfer 和 integration 之间有两个重要区别:

  1. In data transfer, Seurat 不会更正或修改 query expression data。
  2. In data transfer, Seurat 有一个选项(set by default)将 reference 的 PCA 结构投射到 query 上,而不是使用 CCA 学习联合结构。我们通常建议在 scRNA-seq 数据集之间投射数据时使用此选项。

找到 anchors 后,我们使用 TransferData() 函数根据 reference data(参考细胞类型标签的向量)对 query cells 进行分类。TransferData() 返回一个包含预测 ID 和预测分数的矩阵,我们可以将其添加到 query metadata 中。

pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, dims = 1:30, reference.reduction = "pca")
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有来自完整 integrated 分析的原始标签注释,所以我们可以评估我们预测的细胞类型注释与完整参考的匹配程度。在这个例子中,我们发现细胞类型分类的一致性很高,超过 96% 的细胞被正确标记。

pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)
## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些典型细胞类型标记。请注意,即使其中一些细胞类型仅由一两个细胞表示(e.g. epsilon cells),我们仍然能够正确分类它们。

table(pancreas.query$predicted.id)
## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5
VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

5 单峰 UMAP 投影

在 Seurat v4 中,我们还启用了将 query 投影到 reference UMAP 结构上。这可以通过计算 reference UMAP 模型然后调用 MapQuery() 而不是 TransferData() 来实现。

pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

MapQuery 在做什么?

MapQuery() 是三个函数的包装:TransferData()IntegrateEmbeddings()ProjectUMAP()TransferData() 用于传输细胞类型标签并估算 ADT 值;IntegrateEmbeddings() 用于通过纠正查询的投影低维嵌入来整合 reference 与 query;最后使用 ProjectUMAP() 将查询数据投影到 reference 的 UMAP 结构上。使用中间函数执行此操作的等效代码如下:

pancreas.query <- TransferData(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"))
pancreas.query <- IntegrateEmbeddings(anchorset = pancreas.anchors, reference = pancreas.integrated,
    query = pancreas.query, new.reduction.name = "ref.pca")
pancreas.query <- ProjectUMAP(query = pancreas.query, query.reduction = "ref.pca", reference = pancreas.integrated,
    reference.reduction = "pca", reduction.model = "umap")

我们现在可以在 reference 旁边可视化 query cells。

p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3,repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容