公共数据库挖掘之利用R语言下载并整理GEO数据

因为是初次利用R包进行下载数据,其中遇到了各种问题,重装了几个R,终于可以顺利下载文件了。现在把过程整理总结如下,其中有问题的地方还希望大家一起讨论。

1.下载GEOquery

刚开始时候我怎么都无法加载GEOquery包。后边发现原因是无法改写系统盘。
可以利用.libPaths()改变包的存储位置。
我将其存储在E盘。

.libPaths("E:/biosoft/R-3.6.0/library")

然后在执行以下命令就正常了。

install.packages("GEOquery")

加载包

library(GEOquery)
library(Biobase)

2.下载并保存数据

options( 'download.file.method.GEOquery' = 'libcurl' ) 
gset <- getGEO('GSE42872',destdir = ".",
               AnnotGPL = F,
               getGPL = F)
save(gset,file = 'GSE42872.gset.Rdata')

3.获得可以进行下游分析的表达矩阵

#取第一个元素
ob=gset[[1]]
#得到其表达矩阵
exprSet=exprs(ob)
##ob
#查看其样本名字
samples=sampleNames(ob)
pdata=pData(ob)
group_list=as.character(pdata[,2])
dim(exprSet)
#查看该表达矩阵的前几行
exprSet[1:5,1:5]

结果截图如下:


image.png

后边的类似的数据下载和处理均可用该方法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容