#####clusterprofile-选用kegg数据库-GSEA函数--可
rm(list = ls())
library(dplyr)
library(data.table)
library(GSEABase)
library(clusterProfiler)
library(DOSE)
library(org.Mm.eg.db)
library(ggplot2)
library(stringr)
library(enrichplot)
library(msigdbr)
options(stringsAsFactors = F)
setwd("/data/wanglei_lab/zhangyu/2.zy_fdy/2.TBILJN_vs_MC/tbi-20221017/6.diff/1.GSEA/GSEAhs")
###预定基因集
mdb_c2 <- msigdbr(species = "Mus musculus", category = "C2")
mdb_c2 = mdb_c2 [grep("^KEGG",mdb_c2 $gs_name),] ##R语言中的grep函数可以在给定的字符串向量中搜索某个子字符串
mdb_c2$gs_name <- gsub('KEGG_','',mdb_c2$gs_name) #去除前缀KEGG_
mdb_c2$gs_name <- tolower(mdb_c2$gs_name) #将大写换为小写
mdb_c2$gs_name <- gsub('_',' ',mdb_c2$gs_name) #将_转化为空格
mdb_c2 <- mdb_c2 %>% as.data.frame %>% dplyr::select(gs_name,entrez_gene,gene_symbol) %>% as.data.frame
head(mdb_c2)
##数据准备
diff_Ast<-read.csv("/data/wanglei_lab/zhangyu/2.zy_fdy/2.TBILJN_vs_MC/tbi-20221017/6.diff/1.GSEA/diff_Ast.csv", header=TRUE,row.names= 1) #读取数据时将基因列读作行名
diff_Ast$SYMBOL = rownames(diff_Ast)
df <- bitr(unique(diff_Ast$SYMBOL), fromType = "SYMBOL",toType = c( "ENTREZID"),OrgDb = org.Mm.eg.db)
#去重
df.id <- dplyr::distinct(df.id,SYMBOL,.keep_all=TRUE)
merged=merge(diff_Ast,df,by='SYMBOL',all=F)
head(merged)
data_all_sort <- merged %>% arrange(desc(avg_log2FC)) #排序
GSEA_input = data_all_sort$avg_log2FC #把foldchange按照从大到小提取出来
names(GSEA_input) <- data_all_sort$ENTREZID #给上面提取的foldchange加上对应上ENTREZID
head(GSEA_input)
##GSEA富集
egmt <- GSEA(GSEA_input, TERM2GENE= mdb_c2,verbose=F,pvalueCutoff = 0.5)
kkx_C2 <- setReadable(egmt, 'org.Mm.eg.db', 'ENTREZID') %>% as.data.frame()
write.csv(kkx_C2,file = 'diff_Ast.GSEA.result20221101-333.csv',quote = F,row.names = T)
save(GSEA_KEGG,file = 'GSEA_KEGG.Rdata')
#作图
gseap1 <- gseaplot2(egmt,
'toll like receptor signaling pathway',#富集的ID编号
title = "toll like receptor signaling pathway",#标题
color = "red", #GSEA线条颜色
base_size = 20,#基础字体大小
rel_heights = c(1.5, 0.5, 1),#副图的相对高度
subplots = 1:3, #要显示哪些副图 如subplots=c(1,3) #只要第一和第三个图
ES_geom = "line", #enrichment score用线还是用点"dot"
pvalue_table = T) #显示pvalue等信息
ggsave(gseap1, filename = 'GSEA_up_1.pdf', width =10, height =8)
gseaplot2(Hgsea,'HALLMARK_HYPOXIA',color = 'red',pvalue_table = T)
clusterprofile-选用kegg数据库-GSEA函数--可
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。
推荐阅读更多精彩内容
- 根据相似性原理,序列相似,功能相似,所有功能注释无非是用比对工具将输入序列比对到数据库序列,再将输入ID对应数据库...
- 参考教程:https://www.jianshu.com/p/9aef626abf94https://biocon...
- 首先整理好前面已经处理好的差异基因数据,部分基因截图如下: 打开DAVID网站: 点击Start Analysis...