单细胞测序GSVA基因集变异分析

GSVA基因集变异分析结合limma包分析差异基因集

基因集变异分析即GSVA(Gene set variation analysis),是一种非参数的无监督分析方法,主要用来评估芯片和转录组的基因集富集结果,适合单细胞转录组测序基因集的差异分析[1] [2]。通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的代谢通路在不同样品间是否富集。简单来说就是研究这些感兴趣的基因集在不同样品间的差异,或者寻找比较重要的基因集。

计算GSVA分数

数据基于单细胞转录组Seurat对象object。首先加载msigdbr和GSVA两个包,msigdbr用于获取MSigdb(Molecular Signatures Database)数据库KEGG基因集,数据库包含了以下9种不同基因的基因,可供下载以及R软件包载入。

使用gsva函数计算GSVA富集分数,parallel.sz指定并行计算的进程数,这里要设置为1,默认0或者大于1的执行速度更慢,属实鸡肋,设置为1要快很多。另外输入矩阵为object对象中log转化后的表达矩阵指定kcdf参数为"Gaussian",如果是counts矩阵则指定kcdf="Poisson"。

method参数可以设置为"gsva"或者"zscore",单细胞数据较大,一般有上万个细胞,指定method = "zscore"会快很多。

library(msigdbr)
library(GSVA)
## 表达矩阵
expr=as.matrix(object@assays$RNA@data)
##通路基因集
msgdC2 = msigdbr(species = "Homo sapiens", category = "C2",subcategory = "KEGG")
keggSet = msgdC2 %>% split(x = .$gene_symbol, f = .$gs_description)

kegg <- gsva(expr, gset.idx.list = keggSet, kcdf="Gaussian",method = "zscore",
                 parallel.sz=1,parallel.type="snow")

linear model

使用limma包获取差异基因集

library(limma)
## limma gsva通路活性评估
de_gsva <- function(exprSet,meta,compare = NULL){
  
  
  allDiff = list()
  design <- model.matrix(~0+factor(meta))
  colnames(design)=levels(factor(meta))
  rownames(design)=colnames(exprSet)
  
  fit <- lmFit(exprSet,design)
  if(length(unique(meta))==2){
    if(is.null(compare)){
      stop("there are 2 Groups,Please set  compare value")
    }
    contrast.matrix<-makeContrasts(contrasts = compare,levels = design)
    fit2 <- contrasts.fit(fit, contrast.matrix) 
    fit2 <- eBayes(fit2)
    tempOutput = topTable(fit2,adjust='fdr', coef=1, number=Inf)
    allDiff[[compare]] = na.omit(tempOutput)
    
  }else if(length(unique(meta))>2){
    for(g in colnames(design)){
      fm = ""
      for(gother in colnames(design)[which(!colnames(design) %in% g)]){
        fm = paste0(fm,"+",gother)
      } 
      
      fm = paste0(g,"VsOthers = ",g,"-(",substring(fm,2),")/",ncol(design)-1)
      contrast.matrix <- makeContrasts(contrasts = fm,levels=design)
      fit2 <- contrasts.fit(fit, contrast.matrix) 
      fit2 <- eBayes(fit2)
      allDiff[[g]]=topTable(fit2,adjust='fdr',coef=1,number=Inf)
    }
  }else{
    stop("error only have one group")
  }
  
  return(allDiff)
}
meta <- object@meta.data[,c("Group")]
Diff =de_gsva(exprSet = kegg ,meta = meta,compare = "Asthma-Control")

ggplot可视化

idiff <-Diff[["Asthma-Control"]]
df <- data.frame(ID = rownames(idiff), score = idiff$t )
df$group =sapply(1:nrow(idiff),function(x){
    if(idiff[x,"logFC"]>0 & idiff[x,"adj.P.Val"]<Padj_threshold){return("up")}
    else if(idiff[x,"logFC"]<0 & idiff[x,"adj.P.Val"]<Padj_threshold){return("down")}
    else{return("noSig")}
  })

# 按照score排序
df$hjust = ifelse(df$score>0,1,0)
df$nudge_y = ifelse(df$score>0,-0.1,0.1)
sortdf <- df[order(df$score),]
sortdf$ID <- factor(sortdf$ID, levels = sortdf$ID)
limt = max(abs(df$score))
ggplot(sortdf, aes(ID, score,fill=group)) + 
    geom_bar(stat = 'identity',alpha = 0.7) + 
             scale_fill_manual(breaks=c("down","noSig","up"),
             values = c("#008020","grey","#08519C"))+
    geom_text(data = df, aes(label = df$ID, y = df$nudge_y),
              nudge_x =0,nudge_y =0,hjust =df$hjust,
              size = tex.size)+
    labs(x = paste0(type," pathways"),
         y=paste0("t value of GSVA score\n",compare),
         title = title)+
    scale_y_continuous(limits=c(-limt,limt))+
    coord_flip() + 
    theme_bw() + #去除背景色
    theme(panel.grid =element_blank())+
    theme(panel.border = element_rect(size = 0.6)
          #panel.border = element_blank()
    )+
    theme(plot.title = element_text(hjust = 0.5,size = 18),
          axis.text.y = element_blank(),
          axis.title = element_text(hjust = 0.5,size = 18),
          axis.line = element_blank(),
          axis.ticks.y = element_blank(),
          legend.position = limt
    )

如下图所示


GSVA pathway activity

gsva热图展示如下图,当多个亚型之间比较时,可以用热图展示不同亚型分组间比较的t值。暂无热图代码。


GSVA pathway activity热图

  1. Lambrechts D, Wauters E, Boeckx B, et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature medicine, 2018, 24(8): 1277-1289.

  2. Chen Y P, Yin J H, Li W F, et al. Single-cell transcriptomics reveals regulators underlying immune cell diversity and immune subtypes associated with prognosis in nasopharyngeal carcinoma[J]. Cell Research, 2020, 30(11): 1024-1042.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容