复现3：AD外周血的单细胞转录组与免疫组库分析

Single-Cell RNA Sequencing of Peripheral Blood Reveals Immune Cell Signatures in Alzheimer's Disease
PMID: 34447367 | IF=7.561 | Front Immunol. 2021 Aug 9

1、关于文章

文献思路：作者对来自AD病人与Normal对照的外周血取样，同时进行单细胞转录组测序与单细胞免疫组库测序，以研究AD病人的外周血免疫微环境的“潜在变化”，具体分析思路如下图所示。
文章相关图表

单细胞类型注释结果

基于细胞类型水平，AD与NC差异基因的富集分析

免疫组库分析(TCR)

免疫组库以及数据分析的相关教程参考如下
（1）淋巴细胞、抗原受体以及免疫组库测序的意义(录屏版)_哔哩哔哩_bilibili
（2）上游比对：【cellranger】https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/using/vdj
https://support.10xgenomics.com/single-cell-vdj/software/downloads/latest
（3）下游分析：【scRepertoire】免疫组库数据分析1-scRepertoire - 简书 (jianshu.com)

测序数据下载
（1）单细胞转录数据：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE181279

（2）单细胞免疫组库测序数据(原始fastq数据)

2、复现

努力复现的内容主要包括：scRNA-seq的细胞类型注释、差异分析、富集分析；T细胞免疫组库的相关分析。分析工具主要为Serve Rstudio。

2.1 scRNA-seq

（1）数据预处理

setwd("~/imm/")
library(Seurat)

fs=list.files('./GSE181279_RAW/','^GSM')
fs
library(tidyverse)
samples=str_split(fs,'_',simplify = T)[,1]
samples
lapply(unique(samples),function(x){
  y=fs[grepl(x,fs)]
  folder=paste0("GSE181279_RAW/", str_split(y[1],'_',simplify = T)[,2])
  dir.create(folder,recursive = T)
  #为每个样本创建子文件夹
  file.rename(paste0("GSE181279_RAW/",y[1]),file.path(folder,"barcodes.tsv.gz"))
  #重命名文件，并移动到相应的子文件夹里
  file.rename(paste0("GSE181279_RAW/",y[2]),file.path(folder,"features.tsv.gz"))
  file.rename(paste0("GSE181279_RAW/",y[3]),file.path(folder,"matrix.mtx.gz"))
})


library(Seurat)
samples=list.files("GSE181279_RAW/")
samples
dir <- file.path('./GSE181279_RAW',samples)
names(dir) <- samples
#合并方法1
counts <- Read10X(data.dir = dir)
scRNA = CreateSeuratObject(counts)
dim(scRNA)   #查看基因数和细胞总数
table(scRNA@meta.data$orig.ident)  #查看每个样本的细胞数
head(scRNA@meta.data)
scRNA$group = substr(scRNA$orig.ident, 1, 2)
table(scRNA$group)

#检查数据与文章的细胞数相符，所以应该是已经质控后的
feats <- c("nFeature_RNA")
p1=VlnPlot(scRNA, features = feats, pt.size = 0) + 
  NoLegend()
feats <- c("nCount_RNA")
p2=VlnPlot(scRNA, features = feats, pt.size = 0) + 
  NoLegend()
mito_genes=rownames(scRNA)[grep("^MT-", rownames(scRNA))] 
str(mito_genes) 
scRNA=PercentageFeatureSet(scRNA, "^MT-", col.name = "percent_mito")
fivenum(scRNA@meta.data$percent_mito)
feats <- c("percent_mito")
p3=VlnPlot(scRNA, features = feats, pt.size = 0) + 
  NoLegend()

p1 | p2 | p3

（2）标准化、高变基因、归一化、降维

#标准化-归一化-高变基因
scRNA <- NormalizeData(scRNA, normalization.method = "LogNormalize", scale.factor = 10000)
scRNA <- FindVariableFeatures(scRNA, selection.method = "vst", nfeatures = 2000) 
# this sclae step may take a long time if set "vars.to.regress"
scRNA <- ScaleData(scRNA, features = VariableFeatures(scRNA),
                   vars.to.regress = c("nFeature_RNA","percent_mito"))

# 可视化高变基因
top10 <- head(VariableFeatures(scRNA), 10) 
p_hvg <- VariableFeaturePlot(scRNA) 
library(ggplot2)
LabelPoints(plot = p_hvg, points = top10, repel = TRUE, size=2.5) +
  theme(legend.position = c(0.1,0.8))

scRNA <- RunPCA(scRNA, features = VariableFeatures(scRNA)) 
ElbowPlot(scRNA, ndims=30, reduction="pca") 
pc.num=1:20
# tSNE takes longer time than umap
scRNA = RunTSNE(scRNA, dims = pc.num)
scRNA = RunUMAP(scRNA, dims = pc.num)
DimPlot(scRNA, reduction = "tsne", group.by = "group") +
  DimPlot(scRNA, reduction = "umap", group.by = "group")

（3）分群、细胞类型注释

scRNA <- FindNeighbors(scRNA, dims = pc.num) 
scRNA <- FindClusters(scRNA, resolution = c(0.01,0.05,0.1,0.2,0.3,0.4,0.5))
library(clustree)
library(patchwork)
p_clu = clustree(scRNA@meta.data, prefix = "RNA_snn_res.")
Idents(scRNA) = scRNA$RNA_snn_res.0.3
table(scRNA@active.ident)
p_tsne = DimPlot(scRNA, reduction = "tsne", label = T)
p_clu | p_tsne

因为是外周血样本，所以主要是免疫相关细胞，相关marker基因也比较常见~

先注意查看下每种marker基因在所有cluster的表达情况

# T cell 0 1 2 3 4 6 12 13
cg=c("CD3D","CD3E","CD3G")
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne
# naive T : 10, 12,14,15
# CD4+ T : CD4  --- 0,1,2
# CD8+ T : CD8A, CD8B  --- 6, 13
# NKT : 3,4

cg=c("CD3D","CD3E","CD3G", 
     "CD4",
     "CD8A","CD8B",
     "GZMB", "PRF1",
     "FGFBP2",  "CX3CR1",
     "LEF1","SELL")
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne
# B cell : 5,9,11
cg=c("CD19","CD79A","CD79B")
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne
# natural killer (NK) cells --- 7,8
cg=c("NKG7","GZMB","GNLY","NCR1")
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne
# monocyte–macrophage --- 16,17,19
cg=c("CD14","CD68")  
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne

# mixed with hemoglobin and platelets --- 18
cg=c("PF4")  
DotPlot(scRNA, assay = "RNA",
        features = cg) + coord_flip()  + p_tsne

然后统一观察

scRNA@active.ident = factor(scRNA@active.ident, levels = c(15,10,12,14,
                                                           0,1,2,13,6,3,4,
                                                           8,7,5,9,11,
                                                           16,17,19,18))
cgs = list(
  Tcell = c("CD3D","CD3E","CD3G"),
  naiveT = c("LEF1","SELL"),
  `CD4+T` = c("CD4"),
  `CD8+T` = c("CD8A", "CD8B"),
  NK    = c("GZMB","NKG7","GNLY","NCR1"),
  Bcell = c("CD19","CD79A","CD79B"),
  `Mono/Macr` = c("CD14","CD68"),
  Mixed = c("PF4"))


p_tmp=DotPlot(scRNA, features = cgs, assay = "RNA") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) 
p_tmp

最后进行注释

scRNA$celltype = case_when(
  scRNA@active.ident %in% c(10,12,14,15) ~ "naive T",
  scRNA@active.ident %in% c(0,1,2) ~ "CD4+ T",
  scRNA@active.ident %in% c(6,13) ~ "CD8+ T",
  scRNA@active.ident %in% c(3,4) ~ "NKT",
  scRNA@active.ident %in% c(7,8) ~ "NK",
  scRNA@active.ident %in% c(5,9,11) ~ "B",
  scRNA@active.ident %in% c(16,17,19) ~ "Mono/Macr",
  scRNA@active.ident %in% c(18) ~ "Mixed"
)
table(scRNA$celltype)
Idents(scRNA) = scRNA$celltype
table(scRNA@active.ident)
#调整因子顺序，美观的dotplot
scRNA@active.ident = factor(scRNA@active.ident, 
                            levels = c("naive T","CD4+ T","CD8+ T","NKT",
                                       "NK","B","Mono/Macr","Mixed"))
p_anno=DimPlot(scRNA, reduction = "tsne",
        cols = c("#e41a1c","#377eb8","#4daf4a","#984ea3",
                 "#ff7f00","#ffff33","#a65628","#f781bf"))
p_tmp=DotPlot(scRNA, features = cgs, assay = "RNA") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) 

p_group=DimPlot(scRNA, reduction = "tsne", group.by = "group",
        cols = c("#d7191c","#2b83ba"))
p_tmp + p_anno

image.png

相关marker基因的单独展示（文章的图）

FeaturePlot(scRNA, features = "CD3D", reduction = "tsne", 
            cols = c("#d9d9d9", "#ef3b2c")) | p_anno
FeaturePlot(scRNA, features = "CD4", reduction = "tsne", 
            cols = c("#d9d9d9", "#ef3b2c")) | p_anno  
FeaturePlot(scRNA, features = "CD8A", reduction = "tsne", 
            cols = c("#d9d9d9", "#ef3b2c")) | p_anno 

VlnPlot(scRNA, features = c("CD79A","CD3D","CD4","GZMB"), group.by = "RNA_snn_res.0.3", 
        pt.size = 0, ncol = 1) + NoLegend()

（4）细胞组成占比

pie_data = scRNA@meta.data[,c("celltype","group")] 
library(ggplot2)
#remotes::install_github("Rkabacoff/ggpie")
library(ggpie)
pie_AD = ggpie(subset(pie_data, group == "AD"), celltype, offset=0.7, title="AD") 
pie_NC = ggpie(subset(pie_data, group == "NC"), celltype, offset=0.7, title="NC")
pie_AD | pie_NC

（5）FindAllMarkers细胞类型marker gene热图

library(future)
plan()
plan("multiprocess", workers = 4)
plan()

table(scRNA@active.ident)
scRNA = scRNA[,!scRNA@active.ident %in%  "Mixed"]
table(scRNA@active.ident)
scRNA_sample = subset(scRNA, downsample = 2000)
table(scRNA_sample@active.ident)
diff.wilcox = FindAllMarkers(scRNA_sample)
head(diff.wilcox)


library(tidyverse)
all.markers = diff.wilcox %>% select(gene, everything()) %>%
  subset(p_val<0.05 & abs(diff.wilcox$avg_log2FC) > 0.5)
top20 = all.markers %>% group_by(cluster) %>% top_n(n = 20, wt = avg_log2FC)
scRNA_sample = ScaleData(scRNA_sample, features = top20$gene,
                         vars.to.regress = c("nFeature_RNA","percent_mito"))
DoHeatmap(scRNA_sample, features = top20$gene) +
  scale_fill_gradientn(colors = c("#2171b5", "#f7fbff", "#ef3b2c"))

（6）细胞类型水平的AD与NC差异分析

仅分析5种免疫细胞类型

scRNA_sub = scRNA[,scRNA@active.ident %in% c("B","CD4+ T","CD8+ T","NK","Mono/Macr")]
table(scRNA_sub$main, scRNA_sub$group)
#差异分析
scRNA_sub$compare = paste(scRNA_sub$main, scRNA_sub$group, sep = "_")
table(scRNA_sub$compare)
ct = levels(scRNA_sub@active.ident)
all_markers = lapply(ct, function(x){
  # x = ct[1]
  print(x)
  markers <- FindMarkers(scRNA_sub, group.by = "compare",
                         logfc.threshold = 0.1,
                         ident.1 = paste(x,"AD",sep = "_"),
                         ident.2 = paste(x,"NC",sep = "_"))
  #markers_sig <- subset(markers, p_val_adj < 0.1)
  return(markers)
})
length(all_markers)
names(all_markers) = ct
lapply(all_markers,nrow)
all_markers_sig = lapply(all_markers, function(x){
  markers_sig <- subset(x, p_val_adj < 0.05 & abs(avg_log2FC) > 0.5)
  #markers_sig <- subset(x, p_val < 0.0001)
})
sapply(all_markers_sig,nrow)
# CD4+ T        NK    CD8+ T         B Mono/Macr 
# 141       214       186       154       179

degs = lapply(all_markers_sig, rownames)
#install.packages("UpSetR")
library(UpSetR)
#upset(fromList(degs))
combns = lapply(1:10, function(i){
  c(combn(names(degs),2)[,i])
})
mt = fromList(degs)
#list name不能含有特殊字符
colnames(mt) = gsub(" ","",colnames(mt))
colnames(mt) = gsub("[+]","",colnames(mt))
colnames(mt) = gsub("[/]","",colnames(mt))
combns = lapply(1:10, function(i){
  c(combn(colnames(mt),2)[,i])
})
#展示出仅两两交集的关系
UpSetR::upset(mt, intersections = combns)

（7）富集分析

library(clusterProfiler)
library(org.Hs.eg.db)
msigdb_reac = clusterProfiler::read.gmt("./geneset/c2.cp.reactome.v7.4.symbols.gmt")
msigdb_kegg = clusterProfiler::read.gmt("./geneset/c2.cp.kegg.v7.4.symbols.gmt")
msigdb_bp = clusterProfiler::read.gmt("./geneset/c5.go.bp.v7.4.symbols.gmt")
msigdb = rbind(msigdb_reac, msigdb_kegg, msigdb_bp)
res_CD4 = enricher(degs$`CD4+ T`, TERM2GENE = msigdb, 
               pvalueCutoff = 1, qvalueCutoff = 1)
res_CD8 = enricher(degs$`CD8+ T`, TERM2GENE = msigdb, 
                   pvalueCutoff = 1, qvalueCutoff = 1)
res_NK = enricher(degs$NK, TERM2GENE = msigdb, 
                   pvalueCutoff = 1, qvalueCutoff = 1)
res_B = enricher(degs$B, TERM2GENE = msigdb, 
                  pvalueCutoff = 1, qvalueCutoff = 1)
res_Mo = enricher(degs$`Mono/Macr`, TERM2GENE = msigdb, 
                 pvalueCutoff = 1, qvalueCutoff = 1)

#参考文章，展示特定20条通路在5种免疫细胞DEG的富集程度
library(clusterProfiler)
library(org.Hs.eg.db)
msigdb_reac = clusterProfiler::read.gmt("./geneset/c2.cp.reactome.v7.4.symbols.gmt")
msigdb_kegg = clusterProfiler::read.gmt("./geneset/c2.cp.kegg.v7.4.symbols.gmt")
msigdb_bp = clusterProfiler::read.gmt("./geneset/c5.go.bp.v7.4.symbols.gmt")
msigdb = rbind(msigdb_reac, msigdb_kegg, msigdb_bp)
res_CD4 = enricher(degs$`CD4+ T`, TERM2GENE = msigdb, 
               pvalueCutoff = 1, qvalueCutoff = 1)
res_CD8 = enricher(degs$`CD8+ T`, TERM2GENE = msigdb, 
                   pvalueCutoff = 1, qvalueCutoff = 1)
res_NK = enricher(degs$NK, TERM2GENE = msigdb, 
                   pvalueCutoff = 1, qvalueCutoff = 1)
res_B = enricher(degs$B, TERM2GENE = msigdb, 
                  pvalueCutoff = 1, qvalueCutoff = 1)
res_Mo = enricher(degs$`Mono/Macr`, TERM2GENE = msigdb, 
                 pvalueCutoff = 1, qvalueCutoff = 1)
#Top20 genesets
pathways = c("GOBP_POSITIVE_REGULATION_OF_CELL_DEATH",
"GOBP_PHAGOCYTOSIS",
"GOBP_REGULATION_OF_TUMOR_NECROSIS_FACTOR_MEDIATED_SIGNALING_PATHWAY",
"GOBP_CELLULAR_DEFENSE_RESPONSE",
"GOBP_POSITIVE_REGULATION_OF_DEFENSE_RESPONSE",
"GOBP_RESPONSE_TO_BACTERIUM",
"GOBP_OSTEOCLAST_DIFFERENTIATION",
"GOBP_INTERFERON_GAMMA_PRODUCTION",
"REACTOME_ADAPTIVE_IMMUNE_SYSTEM",
"GOBP_LYMPHOCYTE_ACTIVATION",
"GOBP_IMMUNE_RESPONSE_REGULATING_SIGNALING_PATHWAY",
"GOBP_LEUKOCYTE_MIGRATION",
"GOBP_MYELOID_LEUKOCYTE_ACTIVATION",
"REACTOME_HEMOSTASIS",
"KEGG_NATURAL_KILLER_CELL_MEDIATED_CYTOTOXICITY",
"KEGG_HEMATOPOIETIC_CELL_LINEAGE",
"GOBP_CYTOKINE_MEDIATED_SIGNALING_PATHWAY",
"GOBP_ADAPTIVE_IMMUNE_RESPONSE",
"GOBP_B_CELL_ACTIVATION")

test = res_CD4@result
colnames(test)
enrich_res2 = list(
  CD4 = res_CD4,
  CD8 = res_CD8,
  NK = res_NK,
  Mo = res_Mo,
  B = res_B)
res_hp = lapply(enrich_res2, function(x){
  -log10(x@result[pathways,"pvalue"])
})
res_hp = do.call(cbind, res_hp)
rownames(res_hp) = pathways
res_hp[is.na(res_hp)] = -5
pheatmap::pheatmap(res_hp, cluster_rows = F, cluster_cols = F, 
                   color = colorRampPalette(colors = c("grey","white","red"))(100))

2.2 免疫组库分析（TCR为例）

（1）上游比对

以其中一个数据为例

#GSM5494112 AD2_TCR
#SRR15319897
#SRR15319898
#SRR15319899
#SRR15319900

cat fq.txt | while read id
do
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/${id:0:6}/0${id:0-2}/${id}/${id}_1.fastq.gz
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/${id:0:6}/0${id:0-2}/${id}/${id}_2.fastq.gz
done

mv SRR15319897_1.fastq.gz AD2_TCR_S2_L001_R1_001.fastq.gz
mv SRR15319897_2.fastq.gz AD2_TCR_S2_L001_R2_001.fastq.gz
mv SRR15319898_1.fastq.gz AD2_TCR_S2_L002_R1_001.fastq.gz
mv SRR15319898_2.fastq.gz AD2_TCR_S2_L002_R2_001.fastq.gz
mv SRR15319899_1.fastq.gz AD2_TCR_S2_L003_R1_001.fastq.gz
mv SRR15319899_2.fastq.gz AD2_TCR_S2_L003_R2_001.fastq.gz
mv SRR15319900_1.fastq.gz AD2_TCR_S2_L004_R1_001.fastq.gz
mv SRR15319900_2.fastq.gz AD2_TCR_S2_L004_R2_001.fastq.gz

bin=~/biosoft/cellranger-6.0.2/bin/cellranger
db=~/imm/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0
fq_dir=./fastq/
$bin vdj --id=AD2_TCR \
                 --reference=$db \
                 --fastqs=$fq_dir \
                 --sample=AD2_TCR \
                 --localcores=8 \
                 --localmem=64

（2）下游分析

【2.1】整合所有TCR数据，以及分组信息

# library(devtools)
# install_github("ncborcherding/scRepertoire")
library(Seurat)
library(scRepertoire)
library(tidyverse)
library(patchwork)

fls = list.files("VDJ/", pattern = "*TCR_filtered_contig_annotations.csv", full.names = T)
TCR = lapply(fls, function(x){
  tcr = read.csv(x)
  return(tcr)
})

combined_TCR <- combineTCR(TCR, 
                           samples = c("AD1", "AD2", "AD3", "NC1", "NC2"),
                           cells = "T-AB")
combined_TCR <- addVariable(combined_TCR, name = "group", 
                            variables = c("AD", "AD", "AD", "NC", "NC"))
names(combined_TCR) = c("AD1", "AD2", "AD3", "NC1", "NC2")
str(combined_TCR)

【2.2】图A：每个样本的Top10 克隆型；图B：样本克隆型类型的分布情况（按AD、NC分组）

#P_A: 以氨基酸序列作为克隆型依据
Top10_clone = lapply(combined_TCR, function(x){
  head(sort(table(x$CTaa), decreasing = T),10) / nrow(x)
})
Top10_clone_stat = do.call(cbind, Top10_clone)
rownames(Top10_clone_stat) = 1:10 
Top10_clone_stat=reshape2::melt(Top10_clone_stat)
colnames(Top10_clone_stat) = c("ID","sample","Freq")
Top10_clone_stat$group = substr(Top10_clone_stat$sample,1,2)
head(Top10_clone_stat)
Top10_clone_stat$sample = factor(Top10_clone_stat$sample,
                                 levels = c("NC1","NC2","AD1","AD2","AD3"))
p_A = ggplot(Top10_clone_stat, aes(x=sample, y=Freq, color = group)) +
  geom_boxplot() + 
  ggtitle(label = "The relative frequency of\n the 10 most abundant clonesis") +
  theme_bw() + 
  theme(
    # Hide panel borders and remove grid lines
    panel.border = element_blank(),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    # Change axis line
    axis.line = element_line(colour = "black", size = 0.5),
    #no legend
    legend.position = "none",
    # center legend
    plot.title = element_text(hjust = 0.5)
  )
#P_B: 样本克隆型的分布情况
clone_NC1 = unique(combined_TCR$NC1$CTaa)
clone_NC2 = unique(combined_TCR$NC2$CTaa)
# intersect(clone_NC1, clone_NC2)
veen_NC = list(NC1 = clone_NC1,
                  NC2 = clone_NC2)
library(VennDiagram)
library(cowplot)
library(ggplotify)
library(gridGraphics)

# plt=venn.diagram(veen_NC, filename=NULL,fill = c("#beaed4", "#fdc086"),
#                  cat.pos = c(0, 0))
# p_tmp <- grobTree(plt)
# as.ggplot(plot_grid(p_tmp))
v = draw.pairwise.venn(
  area1 = 61,
  area2 = 59,
  cross.area = 20,
  category = c("NC1", "NC2"),
  fill = c("#beaed4", "#fdc086"),
  cat.pos = c(-180,-180),
  lty = 1, cat.cex = 2)
#lapply(v, function(i) i$label)
v[[5]]$label = 3573
v[[6]]$label = 3435
v[[7]]$label = 137
p_tmp <- grobTree(v)
p_B1=as.ggplot(plot_grid(p_tmp))


clone_AD1 = unique(combined_TCR$AD1$CTaa)
clone_AD2 = unique(combined_TCR$AD2$CTaa)
clone_AD3 = unique(combined_TCR$AD3$CTaa)
# veen_NC = list(AD1 = clone_AD1,
#                AD3 = clone_AD3,
#                AD2 = clone_AD2)
# plt=venn.diagram(veen_NC, filename=NULL)
# p_tmp <- grobTree(plt)
# as.ggplot(plot_grid(p_tmp))


v = draw.triple.venn(
  area1 = 60,
  area2 = 60,
  area3 = 60,
  n12 = 21,
  n23 = 22,
  n13 = 19,
  n123 = 10,
  category = c("AD2", "AD1", "AD3"),
  fill = c("#8dd3c7", "#b3cde3", "#ccebc5"),
  lty = 1, 
  cat.cex = 2,
  cat.just=list(c(0.5,0) , c(0.5,0) , c(0.5,0.7)),
  cat.pos = c(150,-150,0),
  rotation.degree =180)
#lapply(v, function(i) i$label)
v[[7]]$label = 4380
v[[8]]$label = 0
v[[9]]$label = 3704
v[[10]]$label = 1
v[[11]]$label = 0
v[[12]]$label = 0
v[[13]]$label = 4168
p_tmp <- grobTree(v)
p_B2=as.ggplot(plot_grid(p_tmp))
p_B = p_B1 | p_B2

#合并图片
(p_A | p_B) + plot_layout(widths = c(1,2))

【2.3】图C：AD、NC组的克隆型多样性评价；图D：每个样本的TCR受体氨基酸序列长度分布特征

#P_C 
p=clonalDiversity(combined_TCR, cloneCall = "aa", group = "group")
diver_stat = p$data
diver_stat_inv = subset(diver_stat, variable == "Inv.Simpson")
p_C1=ggplot(diver_stat_inv, aes(x=group, y=value )) +
  geom_bar(stat = "identity", fill = "#5fba7e", width=0.4) +
  ggtitle("Invsimpson") + 
  scale_y_continuous(expand=c(0,0))  +
  theme_bw() + 
  theme(
    # Hide panel borders and remove grid lines
    panel.border = element_blank(),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    # Change axis line
    axis.line = element_line(colour = "black", size = 0.5),
    # center legend
    plot.title = element_text(hjust = 0.5)
    )
diver_stat_shan = subset(diver_stat, variable == "Shannon")
p_C2=ggplot(diver_stat_shan, aes(x=group, y=value )) +
  geom_bar(stat = "identity", fill = "#fed976", width=0.4) +
  coord_cartesian(ylim = c(7.8, 8.5)) +
  ggtitle("Shannon") +
  scale_y_continuous(expand=c(0,0))  +
  theme_bw() + 
  theme(
    # Hide panel borders and remove grid lines
    panel.border = element_blank(),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    # Change axis line
    axis.line = element_line(colour = "black", size = 0.5),
    # center legend
    plot.title = element_text(hjust = 0.5))
p_C = p_C1 | p_C2


p_D1 = lengthContig(combined_TCR, cloneCall="aa", chain = "TRA") + 
  scale_fill_manual(values=c("#fec44f", "#fe9929", "#ec7014", "#74a9cf", "#3690c0")) +
  ggtitle(label = "TRA")
p_D2 = lengthContig(combined_TCR, cloneCall="aa", chain = "TRB") + 
  scale_fill_manual(values=c("#fec44f", "#fe9929", "#ec7014", "#74a9cf", "#3690c0")) +
  ggtitle(label = "TRB")
p_D = p_D1 / p_D2 + plot_layout(guides = "collect")

(p_C | p_D)

【2.4】图E：TCR受体的V基因、J基因家族丰度分布

## TRB V/J gene family
### V
gene_family = lapply(combined_TCR, function(x){
  x = combined_TCR[[1]]
  return(x$TCR2)
})
gene_family_NC = c(gene_family[[4]], gene_family[[5]])
gene_family_NC_V = stringr::str_split(gene_family_NC, "[.]",simplify = T)[,1]
table(gene_family_NC_V)
sle_J = c("TRBV5-1","TRBV28","TRBV7-9","TRBV19","TRBV3-1","TRBV29-1",
          "TRBV5-4","TRBV7-8","TRBV20-1","TRBV16","TRBV9","TRBV7-3")
gene_family_NC_V[!(gene_family_NC_V %in% sle_J)] = "other"
table(gene_family_NC_V)

gene_family_AD = c(gene_family[[1]], gene_family[[2]], gene_family[[3]])
gene_family_AD_V = stringr::str_split(gene_family_AD, "[.]",simplify = T)[,1]
table(gene_family_AD_V)
gene_family_AD_V[!(gene_family_AD_V %in% sle_J)] = "other"
table(gene_family_AD_V)

tb1 = as.data.frame(table(gene_family_NC_V))
colnames(tb1) = c("TRBV","Frequency")
tb1$group = "NC"
tb2 = as.data.frame(table(gene_family_AD_V))
colnames(tb2) = c("TRBV","Frequency")
tb2$group = "AD"
tb=rbind(tb1, tb2)
tb$TRBV = factor(tb$TRBV, levels = rev(c("other","TRBV5-1","TRBV28","TRBV7-9","TRBV19","TRBV3-1","TRBV29-1",
                                     "TRBV5-4","TRBV7-8","TRBV20-1","TRBV16","TRBV9","TRBV7-3")))
p_E1=ggplot(tb, aes(x=group, y=Frequency, fill=TRBV)) +
  geom_bar(stat = "identity", position="fill", width = 0.5) +
  scale_fill_manual(values=rev(c("#bdbdbd","#9e0142","#d53e4f","#f46d43","#fdae61","#fee08b",
                             "#ffffbf","#e6f598","#abdda4","#66c2a5","#3288bd","#5e4fa2","#003c30"))) +
  ggtitle(label = "TRBV family") +
  scale_y_continuous(expand=c(0,0))  +
  theme_bw() + 
  theme(
    # Hide panel borders and remove grid lines
    panel.border = element_blank(),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    # Change axis line
    axis.line = element_line(colour = "black", size = 0.5),
    # center legend
    plot.title = element_text(hjust = 0.5))




### J
gene_family = lapply(combined_TCR, function(x){
  x = combined_TCR[[1]]
  return(x$TCR2)
})
gene_family_NC = c(gene_family[[4]], gene_family[[5]])
gene_family_NC_J = stringr::str_split(gene_family_NC, "[.]",simplify = T)[,3]
table(gene_family_NC_J)
gene_family_NC_J[gene_family_NC_J == ""] = "other"
table(gene_family_NC_J)

gene_family_AD = c(gene_family[[1]], gene_family[[2]], gene_family[[3]])
gene_family_AD_J = stringr::str_split(gene_family_AD, "[.]",simplify = T)[,3]
table(gene_family_AD_J)
gene_family_AD_J[gene_family_AD_J == ""] = "other"
table(gene_family_AD_J)

tb1 = as.data.frame(table(gene_family_NC_J))
colnames(tb1) = c("TRBJ","Frequency")
tb1$group = "NC"
tb2 = as.data.frame(table(gene_family_AD_J))
colnames(tb2) = c("TRBJ","Frequency")
tb2$group = "AD"
tb=rbind(tb1, tb2)

p_E2=ggplot(tb, aes(x=group, y=Frequency, fill=TRBJ)) +
  geom_bar(stat = "identity", position="fill", width = 0.5) +
  scale_fill_manual(values=c("#bdbdbd","#9e0142","#d53e4f","#f46d43","#fdae61","#fee08b","#bf812d",
                                 "#ffffbf","#e6f598","#abdda4","#66c2a5","#3288bd","#5e4fa2","#003c30")) +
  ggtitle(label = "TRBJ family") +
  scale_y_continuous(expand=c(0,0))  +
  theme_bw() + 
  theme(
    # Hide panel borders and remove grid lines
    panel.border = element_blank(),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    # Change axis line
    axis.line = element_line(colour = "black", size = 0.5),
    # center legend
    plot.title = element_text(hjust = 0.5))
p_E = p_E1 | p_E2

复现3：AD外周血的单细胞转录组与免疫组库分析

1、关于文章

2、复现

2.1 scRNA-seq

（1）数据预处理

（2）标准化、高变基因、归一化、降维

（3）分群、细胞类型注释

（4）细胞组成占比

（5）FindAllMarkers细胞类型marker gene热图

（6）细胞类型水平的AD与NC差异分析

（7）富集分析

2.2 免疫组库分析（TCR为例）

（1）上游比对

（2）下游分析

【2.1】 整合所有TCR数据，以及分组信息

【2.2】 图A：每个样本的Top10 克隆型； 图B：样本克隆型类型的分布情况（按AD、NC分组）

【2.3】 图C：AD、NC组的克隆型多样性评价； 图D：每个样本的TCR受体氨基酸序列长度分布特征

【2.4】 图E：TCR受体的V基因、J基因家族丰度分布

推荐阅读更多精彩内容

【2.1】整合所有TCR数据，以及分组信息

【2.2】图A：每个样本的Top10 克隆型；图B：样本克隆型类型的分布情况（按AD、NC分组）

【2.3】图C：AD、NC组的克隆型多样性评价；图D：每个样本的TCR受体氨基酸序列长度分布特征

【2.4】图E：TCR受体的V基因、J基因家族丰度分布