使用Garnett包进行单细胞类型分类注释分析（二）：Classify your cells

image.png

Classifying your cells

image.png

Load your data

library(monocle)
library(garnett)
# load in the data
# NOTE: the 'system.file' file name is only necessary to read in
# included package data
#
mat <- Matrix::readMM(system.file("extdata", "exprs_sparse.mtx", package = "garnett"))
fdata <- read.table(system.file("extdata", "fdata.txt", package = "garnett"))
pdata <- read.table(system.file("extdata", "pdata.txt", package = "garnett"), sep="\t")
row.names(mat) <- row.names(fdata)
colnames(mat) <- row.names(pdata)

# create a new CDS object
pd <- new("AnnotatedDataFrame", data = pdata)
fd <- new("AnnotatedDataFrame", data = fdata)
pbmc_cds <- newCellDataSet(as(mat, "dgCMatrix"),
                             phenoData = pd,
                             featureData = fd)

# generate size factors for normalization later
pbmc_cds <- estimateSizeFactors(pbmc_cds)

构建好细胞分类器之后，我们就可以使用classify_cells函数对细胞进行分类了。该函数主要包含以下参数：

cds: 包含基因表达数据的CDS输入对象。
classifier: 使用Garnett训练获得的garnett_classifier分类器。
db: 是用于转换基因id的Bioconductor注释db类包的必要参数。例如，对于人类使用org.Hs.eg.db。
cluster_extend: 该参数告诉Garnett是否创建第二组分配，以将分类扩展到相同cluster群中的细胞。我们可以在“garnett_cluster”列的pData表中提供分群的id，也可以让Garnett计算分群并填充该列。
cds_gene_id_type：该参数告诉Garnett输入的CDS对象中基因id的格式。默认是“ENSEMBL”。

注意: 如果不提供“garnett_cluster”列，并使用一个非常大的数据集将cluster_extend设置为TRUE，则此函数的运行速度将大大降低。为了方便起见，Garnett会将其计算出的cluster集群保存为“garnett_cluster”，因此如果再次运行该函数，其运算速度会更快。

使用classify_cells函数对细胞进行分类后，在返回的CDS对象中会包含一个Garnett分类的新列(如果cluster_extend = TRUE，则返回两个)，我们可以使用pData函数进行查看。

library(org.Hs.eg.db)
# 使用classify_cells函数基于训练好的分类器进行细胞分类
pbmc_cds <- classify_cells(pbmc_cds, pbmc_classifier,
                           db = org.Hs.eg.db,
                           cluster_extend = TRUE,
                           cds_gene_id_type = "SYMBOL")

# 查看分类的结果
head(pData(pbmc_cds))
#                  CellSample    tsne_1    tsne_2 Size_Factor garnett_cluster cell_type cluster_ext_type
#AAGCACTGCACACA-1 CD19+BCells  3.840315 12.084191   0.5591814               1   B cells          B cells
#GGCTCACTGGTCTA-1 CD19+BCells  9.970962  3.505393   0.5159340               1   Unknown          B cells
#AGCACTGATATCTC-1 CD19+BCells  3.459529  4.935273   0.6980284               1   B cells          B cells
#ACACGTGATATTCC-1 CD19+BCells  1.743949  7.782671   0.8156310               2   B cells          B cells
#ATATGCCTCTGCAA-1 CD19+BCells  5.783448  8.558898   1.1153280               1   B cells          B cells
#TGACGAACCTATTC-1 CD19+BCells 10.792853 10.585274   0.6494699               3   B cells          B cells

table(pData(pbmc_cds)$cell_type)
# B cells CD4 T cells CD8 T cells     T cells     Unknown
#     207         129          61         164         239

table(pData(pbmc_cds)$cluster_ext_type)
# B cells CD4 T cells     T cells 
#     403         190         207 

library(ggplot2)
# 对分类结果进行可视化
qplot(tsne_1, tsne_2, color = cell_type, data = pData(pbmc_cds)) + theme_bw()

qplot(tsne_1, tsne_2, color = cluster_ext_type, data = pData(pbmc_cds)) + theme_bw()

image.png

上图中第一个图显示了Garnett的细胞类型分配，第二张图显示了Garnett的cluster群扩展类型分配。我们可以看到，在这些cluster集群中T细胞子集（CD4和CD8）并没有很好地分离开。因此，在计算cluster集群扩展类型时，Garnett将层次结构备份到更可靠的“T细胞”分配中。

因为此示例数据来自FACS排序的细胞样本，所以我们可以将Garnett的分类结果与“真实的”细胞类型进行比较。

# 查看FACS排序的细胞分类结果
qplot(tsne_1, tsne_2, color = FACS_type, data = pData(pbmc_cds)) + theme_bw()

image.png

Troubleshooting

Common marker file errors

image.png

这里，我们提供了一些常见的标记文件错误和Garnett分类的潜在结果的示例。在上图中，我们使用10x PBMC version 2 (V2)的数据进行分类器的训练，然后使用该分类器对上述的10x PBMC version 1 (V1)数据进行细胞分类。第一个面板由基于FACS排序的细胞类型进行分配着色，其余的面板由Garnett集群无关的细胞类型分配着色。

A cell type is missing from the marker file. 例如，在PBMC标记文件中，不包括T细胞定义(面板2)。我们发现，通常Garnett会将缺失的细胞类型标记为“Unknown”。
A cell type is defined but includes no good specific markers. 例如，在PBMC标记文件中，仅使用CD4而不用CD3来定义T细胞(面板3)。在这种情况下，我们发现Garnett只标记了一部分T细胞，而没有标记其余细胞。
A gene that is not specific and widely expressed is used to define a cell type. 例如，如果我们将MALAT1 (PBMC数据集中表达最多的转录本)添加到T细胞定义(面板4)中，在这种情况下，我们会发现每种细胞类型最终都在真实细胞类型和T细胞之间混合分配。在另一种情况下，包含一个广泛表达的非特异性基因可能会导致Garnett根本找不到足够的训练样本，因为它会认为所有细胞都是模棱两可的(因为它们会表达其他marker基因和非特异性的基因)。
A cell type definition includes genes that are specific to another cell type. 例如，如果我们将B细胞的最佳标记(CD79A)添加到T细胞的定义中(面板5)。我们会发现B细胞簇中包含了B细胞和T细胞和混合细胞类型分配，但是其余的细胞类型的标签大多没有变化。

My species doesn't have an AnnotationDbi-class database

如果我们使用的物种没有可用的AnnotationDbi类数据库，则Garnett将无法在基因ID类型之间进行转换。但是，我们仍然可以使用Garnett进行细胞分类。我们可以设置db ='none'，然后确保在标记文件中使用与CDS对象相同的基因ID类型。当设置db ='none'时，Garnett将忽略基因ID类型的参数。

More troubleshooting to come...

Citation

If you use Garnett to analyze your experiments, please cite:

citation("garnett")

# Hannah A. Pliner, Jay Shendure & Cole Trapnell (2019). Supervised classification enables rapid annotation of cell atlases. Nature Methods
#
# A BibTeX entry for LaTeX users is
#
#   @Article{,
#     title = {Supervised classification enables rapid annotation of cell atlases},
#     journal = {Nature Methods},
#     year = {2019},
#     author = {Hannah A. Pliner and Jay Shendure and Cole Trapnell},
#   }
#

参考来源：https://cole-trapnell-lab.github.io/garnett/docs/#2-classifying-your-cells