目标一:下载GEO数据,以GSE42872为例
方法一:
通过加装GEOquery包,使用getGEO函数可以得到对应GEO好的表达矩阵,注释信息,样本信息等。
rm(list = ls())
options()$repos #翻墙
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE42872', destdir=".",
AnnotGPL = T, ## 注释文件
getGPL = T) ## 平台文件
此步骤Run后下载了GSE42872_series_matrix.txt.gz文件(表达矩阵)和GPL624.annot.gz文件(注释文件)
然而由于网络等问题,getGEO函数可能会出错。因此也可以直接用方法二下载GEO数据。
方法二(好用):
通过从GEO官网(https://www.ncbi.nlm.nih.gov/geo/)搜索GSE42872,找到对应的Series Matrix Files(s)即表达矩阵进行下载,保存到本地;
再在本地解压GSE42872_series_matrix.txt.gz(注意解压到当前目录),或上传到RStudio Server中对应的文件夹;
最后用read.table读入
getwd()
exprSet <- read.table("/home/data/vip11t50/ZH/GSE42872(2)/GSE42872_series_matrix.txt",
comment.char="!", #comment.char="!" 意思是!后面的内容不要读取
stringsAsFactors=F,
header=T)
class(exprSet)
rownames(exprSet) <- exprSet[,1] #把第一列的值变为行名
exprSet <- exprSet[,-1] #把第一列去掉
此时表达矩阵exprSet即下载并读入完毕,属于data.frame