GO富集分析-对比Gorilla, clusterProfiler, topGO三种工具part2

关于三个工具的具体描述(尤其GOrilla),见 GO富集分析-对比Gorilla, clusterProfiler, topGO三种工具part1 ~ GSEA 篇

Interesting gene vs universe~ (ORA )对比

Gene list preparation

保证输入一致, GOrilla 输入 symbol, clusterProfiler 及 topGO 输入 ENTREZ ID.

# gene list preparation for ORA
# GSE76275

library(hgu133plus2.db)
library(magrittr)
load("GSE76275_DEGs.Rdata")

# universe gene list
universeprobe <- row.names(DEGdf)
universeentrez <-  AnnotationDbi::select(hgu133plus2.db,
                                         universeprobe,
                                         "ENTREZID",
                                         "PROBEID")[,2] %>%
  na.omit()%>%
  unique()
save(universeentrez, file = "universe_entrezidlist.Rdata") 

### for GOrilla
universesymbol <- AnnotationDbi::select(hgu133plus2.db,
                                        universeentrez,
                                        "SYMBOL",
                                        "ENTREZID")[,2] %>%
  na.omit()%>%
  unique()
write.table(universesymbol, file = "universe_symbollist.txt",
            quote = F, col.names = F, row.names = F)

## interesting gene list
interesprobe <- row.names(DEGdf[abs(DEGdf$logFC) > 1,])
interesentrez <- AnnotationDbi::select(hgu133plus2.db,
                                       interesprobe,
                                       "ENTREZID",
                                       "PROBEID")[,2] %>%
  na.omit()%>%
  unique()
save(interesentrez, file = "interesting_entrezidlist.Rdata") 


### for GOrilla
interessymbol <- AnnotationDbi::select(hgu133plus2.db,
                                       interesentrez,
                                       "SYMBOL",
                                       "ENTREZID")[,2] %>%
  na.omit()%>%
  unique()
write.table(interessymbol, file = "interesting_symbollist.txt",
            quote = F, col.names = F, row.names = F)

clusterProfiler

ORA GO-BP

# clusterProfiler ORA
## GO-BP
orago_BP <- enrichGO(gene          = interesentrez,
                     universe      = universeentrez,
                     OrgDb         = hgu133plus2.db,
                     ont           = "BP",
                     pAdjustMethod = "BH",
                     pvalueCutoff  = 0.05,
                     qvalueCutoff  = 0.05,
                     readable      = TRUE)
cpORAGOres_BP <- orago_BP@result
dim(cpORAGOres_BP)
# [1] 2001    9
save(cpORAGOres_BP, file = "cpORAGOres_BP.Rdata")

topGO

predefined list of interesting genes

topGO 需要先将输入的 genelist 和 GO 数据库匹配,基因数已经减少到了17762个。

construct a geneID2GO object (a list)

### construct a geneID2GO object (a list)
library(dplyr)
geneID2GOtb <- na.omit(AnnotationDbi::select(hgu133plus2.db, 
                                             universeentrez,
                                             "GO", "ENTREZID"))

geneID2GOmg <- geneID2GOtb %>%
  group_by(ENTREZID) %>%
  summarise(GO=list(GO))
geneID2GO <- geneID2GOmg$GO
names(geneID2GO) <- geneID2GOmg$ENTREZID

构建一个表示在 universe gene 中,哪些基因是 interesting gene & 哪些不是的 factor,并用这个 factor 代表两个 gene list.

construct a genelist (a factor)

### construct a genelist (a factor)
geneNames <- names(geneID2GO)
myInterestingGenes <- geneNames[match(interesentrez, geneNames)]
ORAgeneList <- factor(as.integer(geneNames %in% myInterestingGenes)) 
names(ORAgeneList) <- geneNames 
str(ORAgeneList) 
#  Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
#  - attr(*, "names")= chr [1:17762] "1" "10" "100" "1000" ...
### enrichment analysis
ORAGOdata <- new("topGOdata",
                 ontology = "BP",
                 allGenes = ORAgeneList,
                 annot = annFUN.gene2GO,
                 gene2GO = geneID2GO)
ORAGOdata
# 
# ------------------------- topGOdata object -------------------------
# 
#  Description:
#    -   
# 
# Ontology:
#    -  BP 
# 
#  17762 available genes (all genes from the array):
#    - symbol:  1 10 100 1000 10000  ...
#    - 121  significant genes. 
# 
#  15869 feasible genes (genes that can be used in the analysis):
#   - symbol:  1 10 100 1000 10000  ...
#    - 111  significant genes. 
# 
#  GO graph (nodes with at least  1  genes):
#    - a graph with directed edges
#    - number of nodes = 15845 
#    - number of edges = 37664 
# 
# ------------------------- topGOdata object -------------------------

经典Fisher test:

###  classic Fisher TEST
ORAresultFisher <- runTest(ORAGOdata, algorithm = "classic", statistic = "fisher") 
# 
#            -- Classic Algorithm -- 
# 
#        the algorithm is scoring 2826 nontrivial nodes
#        parameters: 
#            test statistic: fisher
ORAresultFisher
# 
# Description:  
# Ontology: BP 
# 'classic' algorithm with the 'fisher' test
# 15845 GO terms scored: 176 terms with p < 0.01
# Annotation data:
#     Annotated genes: 15869 
#     Significant genes: 111 
#     Min. no. of genes annotated to a GO: 1 
#     Nontrivial nodes: 2826 
### summary table
ORAallRes <- GenTable(ORAGOdata,classicFisher = ORAresultFisher,
                      orderBy = "classicFshier",ranksOf = "classicFshier",
                      topNodes = 176)
save(ORAallRes, file = "topORAGOres_BP.Rdata")

结果对比

# comparison 
## get GOrilla res
GOrillaORA <- read.csv("GOrillares_2lists.txt", header = T,
                       sep = "\t")

load("cpORAGOres_BP.Rdata")
load("topORAGOres_BP.Rdata")

可以看出在数量上差异也很明显。

nrow(cpORAGOres_BP)
# [1] 2001
nrow(ORAallRes)
# [1] 176
nrow(GOrillaORA)
# [1] 12

取三个结果的交集,得到5个共有 GO term.

cpvstop <- intersect(cpORAGOres_BP$ID,ORAallRes$GO.ID)
triple <- intersect(cpvstop, GOrillaORA$GO.term)

row.names(GOrillaORA) <- GOrillaORA$GO.term
row.names(ORAallRes) <- ORAallRes$GO.ID
thefive <- cbind(GOrillaORA[triple,], cpORAGOres_BP[triple,], ORAallRes[triple,])

finetable <- subset(thefive, select = c("Description",
                                        "P.value","FDR.q.value", "Enrichment..N..B..n..b.",   ## GOrilla
                                        "GeneRatio","BgRatio""pvalue", "p.adjust", "qvalue", ## cp
                                        "Annotated", "Significant", "classicFisher"))  ## topGO


可以看出,针对ORA法,GOrilla 和 clusterProfiler 得到的 p.val 较为接近。(GSEA法,clusterProfiler 和 topGO 得到的 p.val 更接近。


最后,向大家隆重推荐生信技能树的一系列干货!

  1. 生信技能树全球公益巡讲:https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
  2. B站公益74小时生信工程师教学视频合辑:https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
  3. 招学徒:https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容