以下两张图引用芯片数据标准化
表达芯片包括affymetrix系列芯片和illumina出厂的芯片两种。
其中affymetrix系列芯片最常用,分析套路很简单,直接用R的affy包,就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。
而illumina出厂的芯片略微有点不一样,它的原始数据有3个层级,一般拿到的是Processed data, 仍然需要一系列的统计学方法才能提取到表达矩阵。
参考生信技能书,用lumi包来处理这个芯片数据。
lumi包的使用代码和说明书如下:
http://bioconductor.org/packages/release/bioc/html/lumi.html
http://bioconductor.org/packages/release/bioc/manuals/lumi/man/lumi.pdf
实战
https://zhuanlan.zhihu.com/p/148801147
方法一、lumi包
##加载lumi包
library(lumi)
# 赋值文件名称给fileName
fileName <- 'GSE76427_non-normalized.txt.gz'
#读入GSE***_non-normalized.txt文件数据
data <- lumiR.batch(fileName)
##1.得到样本数据
pData<-pData(phenoData(data))
## 2.从原始数据中得到得到标准化后的表达数据
data <- lumiExpresso(data)
boxplot(data)