使用GEOquery::getGEO()下载GSEMatrix
gse <- getGEO(GEO="GSE15947",
destdir = "data/GSEMatrix",
filename=NULL,
GSElimits=NULL,
GSEMatrix=TRUE,
AnnotGPL=FALSE,
getGPL=FALSE)
其中,
- 参数destdir是指下载后的文件放在什么地方,默认状态下是放在当前的工作目录。我们在做一个大的项目的时候,通常工作目录下还有其他文件夹,比如存放数据的data文件夹,这样做的目的是,过一段时间回头看自己的项目,很整洁,没有杂乱无章,不至于不知道这个文件是要导入的数据,那个文件是输出的结果。
- GSEMatrix=TRUE,则下载的是从GEO数据库中已经预处理过的数据集,这个数据集是Expres...下载之后,在工作目录下会得到一个GSE15947_series_matrix.txt.gz文件。而,在R中,得到的gse是一个list对象,其长度为1,也就是只有gse中只有一个list。通过gse_new <-gse[[1]]将list结构去除掉。得到的gse_new是一个ExpressionSet对象,这个ExpressionSet类型是Biobase R包中有的class。里面包含了GSE数据的表达矩阵、样品信息、探针信息。
- getGPL:这个参数控制是否下载测序平台信息,里面含有探针的注释,从制造商给的probeID转换成Gene symbol等,当然,也可以使用其他方式对基因的探针进行注释,比如R包。