GEO(Gene Expression Omnibus),即基因表达数据库,美国国立卫生研究院NCBI于2000年创建的公共数据库,具有强大的灵活性和开放性,用户可以提交、储存、检索和下载多种形式的数据。GEO数据库是目前最大、最全面的公共基因表达数据资源。
这里我给大家介绍shinyGEO,一款分析GEO中表达数据的软件。它并不需要太多的编程知识,用户只要电脑里有R语言,了解怎么运行R代码,就可以轻松愉快的进行GEO的数据分析啦~~
shinyGEO简介
首先给出文章:
shinyGEO: a web-based application for analyzing gene expression omnibus datasets
该文章2016年发表在『Bioinformatics』上
shinyGEO是基于R语言中的shiny包而制作的一个web application。用户只需要提供GEO中的检索号,就可以通过shinyGEO下载表达谱数据,并对感兴趣的基因进行差异表达分析和生存分析,并生成高质量的图片,还提供分析的R语言代码。
shinyGEO官网:http://gdancik.github.io/shinyGEO/
从上图可以看到,shinyGEO有网页版和本地版,作者推荐使用本地版。实际上,我在尝试使用网页版时总是出错。
shinyGEO安装
安装过程来自https://github.com/gdancik/shinyGEO
## 安装依赖包
install.packages(c("shiny","survival","shinyBS","GGally","ggplot2","shinyAce","knitr","rmarkdown","RCurl","shinyjs","shinydashboard", "survMisc"))
install.packages('devtools')
devtools::install_github('rstudio/DT', ref = "f3e86a6")
source("http://bioconductor.org/biocLite.R")
biocLite(c("Biobase","GEOquery"))
## 运行
library(shiny)
runUrl("https://github.com/gdancik/shinyGEO/archive/master.zip")
运行上面的几行语句,就可以在本地打开shinyGEO。
shinyGEO示例介绍
我们就以文章中的GSE13507为例,介绍一下shinyGEO的用法
1. Differential Expression Analysis
这里,我想看看tp53基因在不同性别的患者中是否存在显著差异,操作及结果如下图所示。
点击『Save R Code』后,我们可以到『Code』栏中查看背后的R代码。
2. Survival Analysis
点击左侧边栏的『Survival Analysis』,选择tp53基因,然后点击按钮。
选择生存时间和结局,然后点击『Generate KM Plot』,绘制生存分析图。如果想对部分样本进行生存分析的话,需要点击『View Data Table』选取。
最终,如下图所示:
3. View Sample Data Table
以表格的形式展示数据。其中『Sample Selection』可以用于选择大样本中的一个子集,然后进行分析。
欢迎大家关注我的微信公众号『生信family』,有什么问题可以在公众号问我~~~