(一)Seurat的数据结构
版本:3.1.5
直接输入Seurat object的名称,我们可以得到类似如下内容:
An object of class Seurat 13425 features across 39233 samples within 1 assay
Active assay: RNA (13425 features, 3000 variable features) 3 dimensional reductions calculated: pca, umap, tsne
这个告诉我们当前对象主体是13425(基因数)*39233(细胞数)的矩阵,有一个叫RNA的assay,在这个assay中,我们选择了3000个基因作为variable features(一般用来计算PCA),计算了三种降维:PCA, UMAP, t-SNE。
Assay
The Assay object is the basic unit of Seurat; each Assay stores raw, normalized, and scaled data as well as cluster information, variable features, and any other assay-specific metadata. Assays should contain single cell expression data such as RNA-seq, protein, or imputed expression data.
默认情况下,我们的seurat对象中是一个叫RNA的Assay。在我们处理数据的过程中,做整合(integration),或者做变换(SCTransform),或者做去除污染(SoupX),或者是融合velocity的数据等,我们可能会生成新的相关的Assay,用于存放这些处理之后的矩阵。在之后的处理中,我们可以根据情况使用指定Assay下的数据。不指定Assay使用数据的时候, Seurat给我们调用的是Default Assay下的内容。可以通过对象名@active.assay查看当前Default Assay,通过DefaultAssay函数更改当前Default Assay。Assay数据中,counts为raw,data为normalized,scale为scaled。
调用Assay中的数据的方式为,以调取一个名为PBMC的Seurat对象中Assay integrate中的nomalized数据为例:
PBMC@assays$RNA@data
meta.data
元数据,对每个细胞的描述。一般计算的nFeature_RNA等信息就以metafeature的形式存在Seurat对象的metadata中。计算的分类信息一般以RNA_snn_res.x(x指使用的resolution)存放在metadata中。
调取metadata中metafeature值的方式有多种,以调取一个名为PBMC的对象中stim这个metafeature为例:
方法1:PBMC[["stim"]]
方法2:PBMC$stim
reductions
降维之后的每个细胞的坐标信息。
以调取一个名为PBMC的对象中PCA embedding (也就是坐标)信息为例:
PBMC@reductions$pca@cell.embeddings
rownames(object) 获取的是全部基因
colnames(object)获取的是全部细胞id
VariableFeatures(object)获取当前object的Variable feature
levels(object)获取当前object的分类信息
(二)Seurat中包含的函数
Seurat 提供了非常丰富的函数来协助单细胞数据分析,我想先把这些函数主要分为下面几种:
其一是用于提取数据的函数
包括subset, WhichCell, VariableFeatures, Cells
其二是用于处理数据的函数
包括NormalizeData, RunPCA, RunUMAP
其三是用来展示数据的函数
包括DotPlot, DoHeatmap, DimPlot, UMAPPlot, DimPlot, FeaturePlot
1 用于提取数据的函数
对Seurat对象结构有所了解之后,我们其实可以直接在Seurat对象中提取数据。可能为了方便,Seurat也提供了一些函数来帮助我们提取一些我们想要的数据。
这里用一些例子来做实际说明
1.1 提取细胞ID
获取整个object的细胞ID:Cells(object),colnames(object)
按照idents获取部分细胞ID:WhichCells(object, idents = c(1, 2))
按照基因表达获取部分细胞ID:WhichCells(object, expression = gene1 > 1), WhichCells(object, expression = gene1 > 1, slot = "counts")
1.2 提取包含部分细胞的对象
按照细胞ID提取:subset(x = object, cells = cells)
按照idents提取:subset(x = object, idents = c(1, 2))
按照meta.data中设置过的stim信息提取:subset(x = object, stim == "Ctrl")
按照某一个resolution下的分群提取:subset(x = object, RNA_snn_res.2 == 2)
当然还可以根据某个基因的表达量来提取:subset(x = object, gene1 > 1),subset(x = object, gene1 > 1, slot = "counts")
1.3 提取降维之后的坐标信息
Embeddings(object = object[["pca"]])
Embeddings(object = object[["umap"]])
2 用于处理数据的函数
Seurat作为单细胞数据处理的R包,用于处理数据的函数非常的丰富。这里做一些简单的介绍和总结。
2.1 标准化
一般用的是:NormalizeData()
可以选择的另一种:SCTransform(),SCTransform也不是简单的标准化数据,这个函数会生成data, scale.data, VariableFeature, 然后存在一个叫SCT的assay里
2.2 降维
提供了包括RunPCA, RunUMAP, RunTSNE,在每种降维算法里还可以选择不同的方法
2.3 聚类
FindClusters()
2.4 差异分析
分析特定某些idents的差异:FindMarkers(object = object, ident.1 = 1, ident.2 = 2), FindMarkers(object = object, ident.1 = c(1, 2), ident.2 = c(3, 4))
分析每个ident和其他idents的差异:FindAllMarkers(object = object)
2.5 细胞周期
CellCycleScoring(object = object, s.features = s.genes, g2m.features = g2m.genes)
2.6 基因集和的表达
Seurat给了两种选择去考虑一个基因集的整体表达情况。
计算基因模块分值(Calculate module scores for feature expression programs in single cells):AddModuleScore(object = object, features = genes, name = "Module_Score")
合计基因集表达(Aggregate expression of multiple features into a single feature):MetaFeature(object = , features = genes, meta.name = "Aggregate_Feature")
3. 用来展示数据的函数
数据的展示对于数据分析来说尤为重要,Seurat提供了多种类型的展示方式,在结果展示方面给我们提供了很多选择。而且由于Seurat很多展示方法的基础是ggplot,所以除了Seurat函数固定的那些参数以外,我们还可以有很多个性化的操作。
3.1 展示降维信息
DimPlot(object = object, reduction = reduction.name, group.by = groups, label = T)
其中,展示特定降维方法:UMAPPlot, TSNEPlot
3.2 基于降维结果展示数据表达
FeaturePlot(object = object, features = c("gene1", "gene2", "gene3", "gene4")),也可以是meta.data里的值
3.3 Violin Plot
VlnPlot(object = merged, features = c("nFeature_RNA", "nCount_RNA", "gene1", "gene2"), ncol = 2, pt.size = 0.1)
VlnPlot(object = merged, features = c("gene1", "gene2", "gene3", "gene4"), ncol = 2, pt.size = 0.1, slot = "counts")
3.4 DotPlot
DotPlot(object = object, features = genes)
3.5 DoHeatmap
DoHeatmap(object = object, features = genes)
由于不同cluster细胞数目不同,建议抽样之后再画
DoHeatmap(object = object, features = genes, cells = downsampledCells)
3.6 Scatter Plot
两个feature的Scatter: FeatureScatter(object = object, feature1 = feature1, feature2 = feature2)
两个细胞所有feature的Scatter:CellScatter(object = object, cell1 = cell1, cell2 = cell2)
reference:https://www.bilibili.com/read/cv7142541?spm_id_from=333.999.0.0