基因芯片分析流程

array数据的读取

读取array数据首先确定一下测序平台和数据系列,然后用相应的包读取基因表达芯片数据-CEL格式文件并处理成表达矩阵。
affy包(Affymetrix 平台)处理的芯片平台一般是hgu 95系列和133系列;oligo包(Affymetrix 平台)能够处理affymetrix公司的Gene ST arrays,例如[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array;Illumina平台,则可以使用beadarray或lumi
常见平台对应的注释包的检索可以参考https://www.cnblogs.com/xiaojikuaipao/p/12567735.html
对array的一些介绍:
1.http://homer.ucsd.edu/homer/basicTutorial/affymetrix.html

2.https://qiubio.com/new/book/chapter-03/#%E7%AC%AC%E4%BA%8C%E7%AB%A0-%E5%9F%BA%E5%9B%A0%E8%8A%AF%E7%89%87%E5%88%86%E6%9E%90chapter-1-microarray-analysis

Affy 分析array

source("https://bioconductor.org/biocLite.R")
biocLite("affy")
biocLite("hgu133plus2.db")#注释文件
library(affy)
library("hgu133plus2.db")
读取CEL文件
#读取CEL文件
celFiles <- list.celfiles(path = "/yourdataPATH/", full.names=TRUE)
data.affy <- ReadAffy(filenames = celFiles)
data.affy
标准化
#Normalize data with RMA
data.rma <- rma(data.affy)
获取表达矩阵
expr.rma <- exprs(data.rma) # format as table
对探针进行注释
# Convert gene names
Annot <- data.frame(REFSEQ=sapply(contents(hgu133plus2REFSEQ), paste, collapse=", "),
                    SYMBOL=sapply(contents(hgu133plus2SYMBOL), paste, collapse=", "),
                    DESC = sapply(contents(hgu133plus2GENENAME), paste, collapse=", ")  )
# Merge data frames together (like a database table join)
all <- merge(Annot, expr.rma, by.x=0, by.y=0, all = TRUE)
#remove probe ID,gene REFSEQ and DESC and NA 
all<-all[,c(-1:-2,-4)]
all<-all[which(all[,1] != "NA"),]
#use mean of probe ID as gene expression
all<-aggregate(.~SYMBOL,all,mean)
#change transcript ID to gene symbol in rownames
rownames(all)<-all$SYMBOL

后续差异分析分析参考limma包

oligo分析array

source("https://bioconductor.org/biocLite.R")
biocLite("oligo")
library("oligo")
library("oligo")
#文件位置
data.dir <- "../../../test/GSE81580_RAW-2/"
##CEL文件读取
celfiles <- list.files(data.dir, "\\CEL.gz$")
data.raw <- read.celfiles(filenames = file.path(data.dir, celfiles))
#表达量计算
data.eset <- oligo::rma(data.raw)  #含背景处理、归一化和表达量计算
data.exprs <- exprs(data.eset)  #提取表达量矩阵
write.csv(data.exprs,"../../../test/GSE81580expr.csv")
对探针进行注释

获取array对应的注释R包。可以通过ALL来查询

biocLite("ALL")
library(ALL)
show(data.raw)

以及一些查询和下载注释文件的网址:
注释文件下载https://www.thermofisher.com/cn/zh/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-annotation-files.html

http://www.affymetrix.com/support/technical/byproduct.affx?product=mo_trans_assay

各物种注释包查询:https://blog.csdn.net/weixin_40739969/article/details/103186027

欢迎关注!

参考:
https://bioconductor.org/packages/release/bioc/vignettes/oligo/inst/doc/oug.pdf
http://bioinfo.au.tsinghua.edu.cn/member/cye/ref/Microarray.pdf
https://y570pc.github.io/%E4%BD%BF%E7%94%A8oligo%E5%8C%85%E5%A4%84%E7%90%86%E5%9F%BA%E5%9B%A0%E8%8A%AF%E7%89%87%E6%95%B0%E6%8D%AE/
https://blog.csdn.net/tommyhechina/article/details/80409983

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。