Seurat包学习笔记(四):Using sctransform in Seurat

在本教程中,我们将学习Seurat3中使用SCTransform方法对单细胞测序数据进行标准化处理的方法。该方法是Seurat3中新引入的数据标准化方法,可以代替之前NormalizeData, ScaleData, 和 FindVariableFeatures依次运行的三个命令,可以有效的去除一些技术误差和批次效应。

image

Apply sctransform normalization:

  • Note that this single command replaces NormalizeData, ScaleData, and FindVariableFeatures.
  • Transformed data will be available in the SCT assay, which is set as the default after running sctransform
  • During normalization, we can also remove confounding sources of variation, for example, mitochondrial mapping percentage

其详细的方法原理可以查看19年发表在GB上的这篇文章Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression

image


安装并加载所需的R包

#install.packages("Seurat")
library(Seurat)
library(ggplot2)
library(sctransform)

加载数据构建Seurat对象

pbmc_data <- Read10X(data.dir = "/home/dongwei/data/pbmc3k/filtered_gene_bc_matrices/hg19/")
pbmc <- CreateSeuratObject(counts = pbmc_data)
View(pbmc)
image

使用SCTransform进行数据标准化

# store mitochondrial percentage in object meta data
# 计算每个细胞中的线粒体含量
pbmc <- PercentageFeatureSet(pbmc, pattern = "^MT-", col.name = "percent.mt")

# run sctransform
# 使用vars.to.regress参数指定对线粒体含量进行校正
pbmc <- SCTransform(pbmc, vars.to.regress = "percent.mt", verbose = FALSE)
pbmc
An object of class Seurat 
45310 features across 2700 samples within 2 assays 
Active assay: SCT (12572 features, 3000 variable features)
 1 other assay present: RNA

可以看到,执行完SCTranform标准化后会生成一个新的SCT Assay,里面存储着标准化后的一些数据信息。

数据降维、聚类与可视化

# These are now standard steps in the Seurat workflow for visualization and clustering
pbmc <- RunPCA(pbmc, verbose = FALSE)
pbmc <- RunUMAP(pbmc, dims = 1:30, verbose = FALSE)

pbmc <- FindNeighbors(pbmc, dims = 1:30, verbose = FALSE)
pbmc <- FindClusters(pbmc, verbose = FALSE)
DimPlot(pbmc, label = TRUE) + NoLegend()
image

为什么我们在使用sctransform标准化后选择更多PC?

  • 在常规的数据标准化过程中,我们在进行PCA降维后选择了10个PC用于后续的聚类分析,使用少量的PC既能捕捉到主要的生物学差异,又不会引入更多的技术差异。而在SCTransform标准化过程中,我们在PCA降维后选择了30个PC用于后续的聚类分析,这是因为sctransform标准化过程执行了更有效的规范化,从而可以更强烈的消除数据中的技术影响。有趣的是,我们发现在使用sctransform时,通常可以设置较高的参数获得理想的结果。
  • 在常规的数据标准化过程中,即使经过了标准的对数归一化处理,测序深度的变化仍然是一个混杂因素,并且这种影响可能会微妙地影响更高的PC。而在sctransform中,此效果已大大减轻,这意味着更高的PC更可能代表那些微妙的但与生物学相关的异质性来源,因此可能会改善下游的聚类分析。
  • 此外,常规分析中FindVariableFeatures默认会得到2000个高变异基因(HVGs),而使用sctransform进行标准化时,因为使用了更多的PCs,算法也更加优化,所以默认会得到3000个HVGs。sctransform认为:新增加的这1000个基因就包含了之前没有检测到的微弱的生物学差异。而且,即使使用全部的基因去做下游分析,得到的结果也是和sctransform这3000个基因的结果相似。

执行sctransform标准化后的数据存储在哪里?

  • pbmc[["SCT"]]@scale.data :存储了残差数据(归一化值),并直接用作PCA的输入。这个数据不是稀疏矩阵,因此会占用大量内存。不过SCTransform函数计算的时候,为了节省内存,默认使用了return.only.var.genes = TRUE ,只保留差异基因的结果。
  • pbmc[["SCT"]]@counts :存储了校正后的UMI count值。
  • pbmc[["SCT"]]@data:存储了校正后count值的log-normalized结果,有利于后面的可视化。

当然,我们还可以使用管道符将上述步骤连接在一起,使用单行代码实现分析

pbmc <- CreateSeuratObject(pbmc_data) %>% 
    PercentageFeatureSet(pattern = "^MT-", col.name = "percent.mt") %>%
    SCTransform(vars.to.regress = "percent.mt") %>% RunPCA() %>%
    FindNeighbors(dims = 1:30) %>% 
    RunUMAP(dims = 1:30) %>% 
    FindClusters()

使用marker基因对细胞分群进行注释和可视化

  • Clear separation of at least 3 CD8 T cell populations (naive, memory, effector), based on CD8A, GZMK, CCL5, GZMK expression
  • Clear separation of three CD4 T cell populations (naive, memory, IFN-activated) based on S100A4, CCR7, IL32, and ISG15
  • Additional developmental sub-structure in B cell cluster, based on TCL1A, FCER2
  • Additional separation of NK cells into CD56dim vs. bright clusters, based on XCL1 and FCGR3A
# These are now standard steps in the Seurat workflow for visualization and clustering Visualize
# canonical marker genes as violin plots.
VlnPlot(pbmc, features = c("CD8A", "GZMK", "CCL5", "S100A4", "ANXA1", "CCR7", "ISG15", "CD3D"), pt.size = 0.2, ncol = 4)
image
# Visualize canonical marker genes on the sctransform embedding.
FeaturePlot(pbmc, features = c("CD8A", "GZMK", "CCL5", "S100A4", "ANXA1", "CCR7"), pt.size = 0.2, ncol = 3)
image
FeaturePlot(pbmc, features = c("CD3D", "ISG15", "TCL1A", "FCER2", "XCL1", "FCGR3A"), pt.size = 0.2, ncol = 3)
image

参考来源:https://satijalab.org/seurat/v3.1/sctransform_vignette.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容