一句代码同时运行多组富集分析

传统的富集分析的步骤是:

  • 计算出差异表达基因列表
  • 运行GO
  • 运行KEGG
    当然,也可以运行其他富集分析,比如DO,Wikipathways或者Reactome等等,然后再可视化结果,这里所有的操作都不能一次性运行。
    在R里面有一个list的数据格式,对于相同的需求,其实是可以后台一步运行的,只是之前没有相应的R包和代码。

最近Y叔开发了一个gson 格式的包,制定了一种新的背景基因集.gson (类似于.gmt),并且嵌入到了clusterProfiler包里,通过gson_GO()gson_KEGG()gson_WP()函数可以在线爬取相应的GSON背景基因集对象,然后可以进行后续的GSEA或者普通的富集分析。

新开发的gson包中有一个gsonList()函数,可以进行多组富集分析,以 list的形式进行组合分析,然后通过enrichplot包中的autofacet()函数就可以将多个list的结果可视化。这个教程在一次搞定所有的富集分析这个公众号里面。结果如下:

image.png

但是,这个教程刚出的时候,我就想试试GSEA能不能行,结果发现当时的enrichplot包中的autofacet()函数并不支持GSEA结果,所以我当天就在Y叔公众号和Github进行了提问,经过一个月的等待,终于在前几天收到了解决的邮件。还给我发了一个测试pdf结果,确实可以分面多个GSEA的结果了。

image.png

不过,我还是发现一个问题,那就是GSEA本身就包含一个分面,根据NES值分为激活和抑制(这个功能可以通过ggplot2facet_grid(~.sign)实现),那么想实现多个富集分析列表的激活和抑制却又卡住了。

我发现:

使用了autofacet(),就不能使用facet_grid(~.sign)

使用了facet_grid(~.sign),就不能使用autofacet()

当然这个Bug可以通过图片的拼接功能实现,但双分面才是我要的结果,这个bug我也已经反映了,不知道什么时候能够解决。


说完了前言,现在就开始正式演示,使用gson包可以在线获取或读取本地的.gson文件,我们可以一次性分析BPKEGG,也可以一次性运行KEGGReactome这两种信号通路,或者一次性运行KEGGWikiPathways两种信号通路。

获得GSON对象

GSON库

Y叔的工作网页中制作了一些gson格式的基因集库,我们可以直接下载好并且使用,网址是https://yulab-smu.top/gson-files/

Y叔的库

然而,这个基因集库中还没有收录WikiPathways的结果,并且还需要访问Github才能下载。

所以我重新制作了一下这个库,顺便更新了一下时间,将结果导入到码云Gitee上了,地址是

http://swcyo.gitee.io/gson-file/

我修改的库

你也可以这样点击直接下面的链接直接下载保存到本地文件夹:

Gene Ontology;ALL

Gene Ontology;BP

Gene Ontology;CC

Gene Ontology;MF

KEGG

MKEGG

reactome pathway

WikiPathways

在线GSON

  • 我们使用最常用的BP生物学功能和KEGG信号通路进行演示
library(clusterProfiler)
BP <- gson_GO(OrgDb = org.Hs.eg.db, keytype = 'ENTREZID', ont = "BP")
KEGG <- gson_KEGG(species = "hsa", KEGG_Type="KEGG", keyType="kegg") 

如果你想获得目前可获得的所有结果,可以通过clusterProfilergson_GO()gson_KEGG()gson_WP()ReactomePAgson_Reactome()去爬相应背景基因集的最新数据,然后保存到本地使用。代码如下:

# GO
library(clusterProfiler)
library(org.Hs.eg.db)
library(gson)
gson_BP_human <- gson_GO(OrgDb = org.Hs.eg.db, keytype = 'ENTREZID', ont = "BP")
gson_MF_human <- gson_GO(OrgDb = org.Hs.eg.db, keytype = 'ENTREZID', ont = "MF")
gson_CC_human <- gson_GO(OrgDb = org.Hs.eg.db, keytype = 'ENTREZID', ont = "CC")
gson_ALL_human <- gson_GO(OrgDb = org.Hs.eg.db, keytype = 'ENTREZID', ont = "ALL")
write.gson(gson_BP_human, file = "GO_BP_human.gson")
write.gson(gson_MF_human, file = "GO_MF_human.gson")
write.gson(gson_CC_human, file = "GO_CC_human.gson")
write.gson(gson_ALL_human, file = "GO_ALL_human.gson")

# KEGG
KEGG_human <- gson_KEGG(species = "hsa", KEGG_Type="KEGG", keyType="kegg") 
MKEGG_human <- gson_KEGG(species = "hsa", KEGG_Type="MKEGG", keyType="kegg") 
write.gson(KEGG_human, file = "KEGG_human.gson")
write.gson(MKEGG_human, file = "MKEGG_human.gson")

# WikiPathways
WikiPathways_human <- gson_WP("Homo sapiens") 
write.gson(WikiPathways_human, file = "WikiPathways_human.gson")

# Reactome
library(ReactomePA)
Reactome_human <- gson_Reactome(organism = "human")
write.gson(Reactome_human, file = "Reactome_human.gson")

加载本地GSON对象

如果通过上述代码把gson文件下载到了本地文件夹,我们可以通过gsonread.gson()函数进行加载。

library(gson)
KEGG<-read.gson("KEGG_human.gson")
WP<-read.gson("WikiPathways_human.gson")

运行GSEA

我们使用DOSE包中geneList数据列表进行GSEA演示

library(clusterProfiler)
library(gson)
library(enrichplot)
# 构建gson列表
gsonlist <- gsonList(BP = BP, KEGG=KEGG)
data(geneList,package = 'DOSE')
# 一行运行多组GSEA
GSEA <- GSEA(geneList, 
                 gson = gsonlist,
                 eps=0, # 设置这个可以获得更好的p值
                 pvalueCutoff = 0.9 # p值调大一点
             )

可视化

使用dotplot()对多组GSEA结果绘制点图,但是这个结果把BP和KEGG的两种结果全部都包含了,不能体现出具体的结果,见Figure 1所示。

dotplot(GSEA)
Figure 1: 多组GSEA结果同时显示

自动分面

使用autofacet()可以很好的显示分面,默认是按行分面,见Figure 2所示。

dotplot(GSEA,showCategory = 8)+autofacet()
Figure 2: 按行对两种结果进行分面显示

我们也可以按列分面

dotplot(GSEA)+autofacet(by='col')
Figure 3: 按列对两种结果进行分面显示

Bug

我们知道GSEA是支持以NES为界,分为激活和抑制两个结果的,传统方法是+facet_grid(~.sign),但是autofacet()+facet_grid(~.sign)目前只能显示一种结果。

可能是数据有误,只跑出列激活的结果,见Figure 4所示。

library(ggplot2)
dotplot(GSEA)+facet_grid(~.sign)
Figure 4: 显示激活抑制通路

解决方法

目前可以通过拼图的方法对两个结果进行处理,见Figure 5所示。

library(patchwork)
p1<-dotplot(GSEA$`Gene Ontology;BP`)+facet_grid(~.sign)
p2<-dotplot(GSEA$KEGG)+facet_grid(~.sign)
p1/p2
Figure 5: 结果拼图

通过gsonlist,加上Y叔开发的包包,以后做富集分析就越来越觉得,越来越快了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容