【GEO数据库挖掘】一、了解GEO数据库及数据下载

找出文章GSE号,修改后缀即可。

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673

使用RStudio小tips:新建文件夹拷贝project文件可以在R中快速定位文件夹位置。很方便。

1 下载原始数据RAW.tar。

(并不推荐)

image.png

RAW.tar使用affymetix包处理。不同数据库使用的R包也不一样。

2 下载表达矩阵Matrix。

(推荐)

image.png

使用函数读取:

a <- read.table('GSE42872_series_matrix.txt.gz',
                sep = '\t',
                quote = "",
                fill = T,
                comment.char = "!",
                header = T)
##思路怎么来的,如下
##内容空格分隔,read.table、逗号分隔,read.csv、冒号分隔,read.:。详情?read.table

3 在R中直接读取。

(也和网络有关,不过我还是倾向第二种方法,下述代码仅作示例)

##安装包
source("http://www.bioconductor.org/biocLite.R")
biocLite("GEOquery")
library(GEOquery)
##或者用biocoManager安装GEOquery

gset <- getGEO("GSE42589", GSEMatrix=TRUE, ...)

##使用说明
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件
gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息
gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根据GSE号下载数据,下载_series_matrix.txt.gz

下一篇开始最重要的ID转换。

我们下一篇再见!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容