最近在下载GEO数据的时候,下载到了一个这个,GSE41789_RAW,
下载后的数据是一个压缩包,解压缩后
是这个样子的。
第一次使用这种数据有些一筹莫展,不知道怎么去读取这种 CEL结尾的数据。
在网上搜教程,搜‘Rawdata GEO ’,‘原始数据’,出来的教程比较少(后来搜CEL,Affy 数据教程比较多),
所以就,搜了好久,搜到了CELdata 的读取和转换,以及获取表达矩阵的方法。
rm(list = ls())
# if (!require("BiocManager", quietly = TRUE))
# install.packages("BiocManager")
#
# BiocManager::install("affyPLM")
library(affyPLM)
library(GEOquery)
getwd()
setwd('GSE41789_RAW/')
## 使用转用函数读取数据,前提是解压包,然后修改路径到其中,得到Affy专用格式的数据合集
Data <- ReadAffy()
sampleNames(Data) # 查看一下全不全
# 使用rma 预处理数据,将数据转换为eset格式
eset.rma <- rma(Data)
# 获取表达矩阵并输出表格
exprs_dat <- exprs(eset.rma) #提取表达矩阵
后来对比了GSE41789_series_matrix.txt.gz
取得的表达矩阵,使用getGEO()
读取本地文件后得到的表达矩阵差不多是一样的,但是RAWdata获取的基因名稍多一些。所以,要是可以的话,还是下载matrix比较方便一些。
希望对你有帮助!