ExpressionSet 是 Biobase 提供的将多种来源信息组合成方便的单个数据结构,在芯片数据分析很常用。
ExpressionSet 对象结构总结如下图。其中 assayData 保存表达数据;metaData 分别包含 featureData 和 phenoData, 保存探针注释信息和样品信息;experimentData 保存实验信息。
ExpressionSet
当我们用 GEOquery 处理 GEO 数据时可以用 exprs
, pData
等函数,就是因为数据被处理成 ExpressionSet 对象了。
使用 ALL 包可以进行 ExpressionSet 对象操作练习,熟悉数据结构和方法函数。
library(Biobase)
library(ALL)
data(ALL)
用 exprs
函数提取表达矩阵(assayData)。
> exprs(ALL)[1:3, 1:3]
01005 01010 03002
1000_at 7.597323 7.479445 7.567593
1001_at 5.046194 4.932537 4.799294
1002_f_at 3.900466 4.208155 3.886169
行名为探针名;列名为样品名。可以分别用 featureNames
和 sampleNames
提取。
> featureNames(ALL)[1:5]
[1] "1000_at" "1001_at" "1002_f_at" "1003_s_at" "1004_at"
> sampleNames(ALL)[1:5]
[1] "01005" "01010" "03002" "04006" "04007"
用 pData
函数取得样品信息。
> pData(ALL)[1:3, 1:8]
cod diagnosis sex age BT remission CR date.cr
01005 1005 5/21/1997 M 53 B2 CR CR 8/6/1997
01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000
03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998
相应地,用 featureData
函数取得探针注释数据。
> featureData(ALL)
An object of class 'AnnotatedDataFrame': none
(然而,什么都没有发生)
没有注释数据时,可以自己去 GEO 找到相应芯片平台注释文件,或者寻找相应的注释 R 包。
用 experimentData
提取实验信息。
> experimentData(ALL)
Experiment data
Experimenter name: Chiaretti et al.
Laboratory: Department of Medical Oncology, Dana-Farber Cancer Institute, Department of Medicine, Brigham and Women's Hospital, Harvard Medical School, Boston, MA 02115, USA.
Contact information:
Title: Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival.
URL:
PMIDs: 14684422 16243790
Abstract: A 187 word abstract is available. Use 'abstract' method.
ExpressionSet 可以进行索引切片。
> ALL[1:3, 1:3]
ExpressionSet (storageMode: lockedEnvironment)
assayData: 3 features, 3 samples
element names: exprs
protocolData: none
phenoData
sampleNames: 01005 01010 03002
varLabels: cod diagnosis ... date last seen (21 total)
varMetadata: labelDescription
featureData: none
experimentData: use 'experimentData(object)'
pubMedIds: 14684422 16243790
Annotation: hgu95av2
参考资料
ExpressionSet
An end to end workflow for differential gene expression using Affymetrix microarrays