TCGA学习02:差异分析

TCGA学习01:数据下载与整理 - 简书
TCGA学习02:差异分析 - 简书
TCGA学习03:生存分析 - 简书
TCGA学习04:建模预测-cox回归 - 简书
TCGA学习04:建模预测-lasso回归 - 简书
TCGA学习04:建模预测-随机森林&向量机 - 简书

第二步:差异分析

前期文件

rm(list=ls())
load("gdc.Rdata")
dim(expr)
dim(clinical)
table(group_list)
  • 如前所述,这里使用老师的Rdata文件,存在tumor与normal的分组(但是矩阵与病人信息数量也不相同好像)


    gdc.Rdata

预分析--PCA

  • 观察组间差异是否明显
library("FactoMineR")#画主成分分析图需要加载这两个包
library("factoextra")
expr[1:4,1:4]
dat = log(expr+1)   #防止为0
t(dat)[1:4,1:4]  #行名为样本,列名为基因
转置表达矩阵
dat.pca <- PCA(t(dat), graph = FALSE)
pca.plot=fviz_pca_ind(dat.pca, geom.ind = "point", col.ind = group_list, 
             addEllipses = TRUE, legend.title = "Groups")
pca.plot
  • 如下图,可以看出两组差异还是比较明显的。


    主成分分析图

1、三种差异分析方法

(1) Deseq2
library(DESeq2)
colData <- data.frame(row.names =colnames(expr), 
                      condition=group_list)
dds <- DESeqDataSetFromMatrix(
    countData = expr,
    colData = colData,
    design = ~ condition)
dds <- DESeq(dds)

# 分组比较
res <- results(dds, contrast = c("condition",rev(levels(group_list))))  #rev设置下比较方式
resOrdered <- res[order(res$pvalue),] # 按照P值排序
DEG <- as.data.frame(resOrdered)
# 去除NA值
DEG <- na.omit(DEG)
head(DEG)
head(DEG)
#添加change列标记基因上调下调
logFC_cutoff <- with(DEG,mean(abs(log2FoldChange)) + 2*sd(abs(log2FoldChange)) )  
#计算上下调标准
#logFC_cutoff <- 2
DEG$change = as.factor(
  ifelse(DEG$pvalue < 0.05 & abs(DEG$log2FoldChange) > logFC_cutoff,
         ifelse(DEG$log2FoldChange > logFC_cutoff ,'UP','DOWN'),'NOT')
)
head(DEG)
table(DEG$change)
DESeq2_DEG <- DEG
基因分为下调、无显著差异、上调三类

之前学习RNA-seq时,用的就是此方法。此外还有edgeR,limma两种方法,不太熟悉,仅记录下代码吧。会得到相似的三分类结果,但存在量的差异。

(2) edgeR
library(edgeR)

dge <- DGEList(counts=expr,group=group_list)
dge$samples$lib.size <- colSums(dge$counts)
dge <- calcNormFactors(dge) 

design <- model.matrix(~0+group_list)
rownames(design)<-colnames(dge)
colnames(design)<-levels(group_list)

dge <- estimateGLMCommonDisp(dge,design)
dge <- estimateGLMTrendedDisp(dge, design)
dge <- estimateGLMTagwiseDisp(dge, design)

fit <- glmFit(dge, design)
fit2 <- glmLRT(fit, contrast=c(-1,1)) 

DEG=topTags(fit2, n=nrow(expr))
DEG=as.data.frame(DEG)
logFC_cutoff <- with(DEG,mean(abs(logFC)) + 2*sd(abs(logFC)) )
#logFC_cutoff <- 2
DEG$change = as.factor(
  ifelse(DEG$PValue < 0.05 & abs(DEG$logFC) > logFC_cutoff,
         ifelse(DEG$logFC > logFC_cutoff ,'UP','DOWN'),'NOT')
)
head(DEG)
table(DEG$change)
edgeR_DEG <- DEG
edgeR三分类
(3) limma
library(limma)

design <- model.matrix(~0+group_list)
colnames(design)=levels(group_list)
rownames(design)=colnames(expr)

dge <- DGEList(counts=expr)
dge <- calcNormFactors(dge)
logCPM <- cpm(dge, log=TRUE, prior.count=3)

v <- voom(dge,design, normalize="quantile")
fit <- lmFit(v, design)

constrasts = paste(rev(levels(group_list)),collapse = "-")
cont.matrix <- makeContrasts(contrasts=constrasts,levels = design) 
fit2=contrasts.fit(fit,cont.matrix)
fit2=eBayes(fit2)

DEG = topTable(fit2, coef=constrasts, n=Inf)
DEG = na.omit(DEG)
logFC_cutoff <- with(DEG,mean(abs(logFC)) + 2*sd(abs(logFC)) )
#logFC_cutoff <- 2
DEG$change = as.factor(
  ifelse(DEG$P.Value < 0.05 & abs(DEG$logFC) > logFC_cutoff,
         ifelse(DEG$logFC > logFC_cutoff ,'UP','DOWN'),'NOT')
)
head(DEG)
table(DEG$change)
limma_voom_DEG <- DEG
limma三分类
tj = data.frame(deseq2 = as.integer(table(DESeq2_DEG$change)),
           edgeR = as.integer(table(edgeR_DEG$change)),
           limma_voom = as.integer(table(limma_voom_DEG$change)),
           row.names = c("down","not","up")
          )
tj
save(DESeq2_DEG,edgeR_DEG,limma_voom_DEG,group_list,tj,file = "DEG.Rdata")
rm(list=ls())
tj

2、差异分析结果可视化

2.1 热图
  • 挑选出显著差异基因
xz_DESeq2 = rownames(DESeq2_DEG)[DESeq2_DEG$change !="NOT"]
xz_DESeq2= dat[xz_DESeq2,]
xz_edgeR = rownames(edgeR_DEG)[DESeq2_DEG$change !="NOT"]
xz_edgeR= dat[xz_edgeR,]
xz_limma = rownames(limma_voom_DEG)[DESeq2_DEG$change !="NOT"]
xz_limma= dat[xz_limma,]
  • 绘制热图
library(pheatmap)
library(ggplot2)
n=xz_DESeq2  
# n=xz_edgeR 
# n=xz_limma
n[1:4,1:4]
n = t(scale(t(n)))
n[1:4,1:4]
n_cutoff=2  
#把绝对值对于2的count值改为2或者-2
n[n > n_cutoff] = n_cutoff
n[n < -n_cutoff] = -n_cutoff
n[1:4,1:4]
annotation_col = data.frame(group = group_list)
rownames(annotation_col) = colnames(n)
p.DEseq2 = as.ggplot(pheatmap(n, show_colnames = F, show_rownames = F, 
                       annotation_col = annotation_col, legend = T, annotation_legend = T, 
                       annotation_names_col = T))
p.DEseq2
2.2 火山图
  • 之前在差异分析是已经增加了down,not、up三分类变化的change列,这里我们直接使用其来绘制
m2d = function(x){
  mean(abs(x))+2*sd(abs(x))
}  
dat=DESeq2_DEG
# dat=edgeR_DEG
# dat=limma_voom_DEG
logFC_cutoff=m2d(dat$log2FoldChange)
tile <- paste0("down gene:",
               nrow(dat[dat$change == "DOWN",]), 
               "\n" ,
               "   up gene:" ,
               nrow(dat[dat$change == "UP",]) )

ggplot(data = dat, aes(x = log2FoldChange, y = -log10(pvalue))) + 
  geom_point(alpha = 0.4, size = 3.5, aes(color = change)) + 
  scale_color_manual(values = c("blue", "grey", "red")) + 
  geom_vline(xintercept = c(-logFC_cutoff, logFC_cutoff), lty = 4, col = "black", lwd = 0.8) + 
  geom_hline(yintercept = -log10(0.05), lty = 4,col = "black", lwd = 0.8) + 
  theme_bw() + 
  labs(title = tile, x = "logFC", y = "-log10(P.value)") + 
  theme(plot.title = element_text(hjust = 0.5))
DESeq2_DEG火山图
  • 可以利用patch包将上面的六张图拼在一起,类似如下代码
library(patchwork)
(h1 + h2 + h3) / (v1 + v2 + v3) +plot_layout(guides = 'collect')

3、三种差异分析方法比较

3.1 韦恩图展示三方法的三分类差异
#定义取类函数
UP=function(df){
  rownames(df)[df$change=="UP"]
}
DOWN=function(df){
  rownames(df)[df$change=="DOWN"]
}
#画韦恩图
ven.plot=venn.diagram(list(Deseq2 = UP(DESeq2_DEG), edgeR = UP(edgeR_DEG), limma = UP(limma_voom_DEG)), 
             imagetype = "png", filename = NULL, 
             lwd = 1, lty = 1, 
             col = c("#0099CC", "#FF6666", "#FFCC99"), 
             fill = c("#0099CC", "#FF6666","#FFCC99"), 
             cat.col = c("#0099CC", "#FF6666",  "#FFCC99"), 
             cat.cex = 1.5, rotation.degree = 0,
             main = "name", main.cex = 1.5, cex = 1.5, alpha = 0.5, 
             reverse = TRUE)
#结果返回是一个list,看不太懂,反正不是图..看了下老师教程,加了如下代码就可以了。
#猜测是不同绘图系统导致的吧?
library(cowplot)
p.up = as.ggplot(as_grob(ven.plot))
# 同法也可绘制出 p.down
三种方法韦恩图,316个相同
3.2 用三方法相同差异基因绘制热图
#挑选出共同基因
up = intersect(intersect(UP(DESeq2_DEG),UP(edgeR_DEG)),UP(limma_voom_DEG))
down = intersect(intersect(DOWN(DESeq2_DEG),DOWN(edgeR_DEG)),DOWN(limma_voom_DEG))
#套入绘图流程
n=expr[c(up,down),]  
# n=xz_edgeR 
# n=xz_limma
n[1:4,1:4]
n = t(scale(t(n)))
n[1:4,1:4]
n_cutoff=2  
#把绝对值对于2的count值改为2或者-2
n[n > n_cutoff] = n_cutoff
n[n < -n_cutoff] = -n_cutoff
n[1:4,1:4]
annotation_col = data.frame(group = group_list)
rownames(annotation_col) = colnames(n)
hp = as.ggplot(pheatmap(n, show_colnames = F, show_rownames = F, 
                              annotation_col = annotation_col, legend = T, annotation_legend = T, 
                              annotation_names_col = T))
#如下图,差异很明显
共有基因热图
3.3 最后拼一张综合图收尾吧
library(patchwork)
pca.plot + hp + up.plot + down.plot
PCA+heatmap+veen
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342