2021-06-26 芯片数据的均一化和探针注释

如何判断芯片表达矩阵是否需要均一化

以GSE43292为例
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE43292

1.png
library(GEOquery)
setwd("/Users/apple/Desktop/GSE43292/")
##下载数据GSE43292
eSet <- getGEO("GSE43292", 
               destdir = '.',
               getGPL = F)

# 从eSet中提取表达矩阵exprSet
exprSet <- exprs(eSet[[1]])
#如果已经下载好了matrix可直接读取
exprSet <- read.table(file = "./GSE43292_series_matrix.txt", header =TRUE, comment.char = "!", row.names=1)

表达量在50以内,初步判断数据已做过标准化处理

第二种判断方法

第三种判断方法

#对得到的表达矩阵操作
ex <- exprSet
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
  (qx[6]-qx[1] > 50 && qx[2] > 0) ||
  (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

if (LogC) { ex[which(ex <= 0)] <- NaN
exprSet <- log2(ex)
print("log2 transform finished")}else{print("log2 transform not needed")}

##判断是否需要log2转换脚本来自果子学生信简书

原始数据的均一化

#安装affy包
#if (!requireNamespace("BiocManager", quietly = TRUE))
#  install.packages("BiocManager")
#BiocManager::install("affy")

library(affy)
setwd("D:\\GEO数据挖掘与meta分析\\练习\\芯片数据的均一化及探针转换(代码)\\GSE43292_RAW")

rawdata <- ReadAffy() #读取当前文件下的CEL格式文件
#同时第一次还会从bioconductor上下载hugene10stv1用来注释cel文件
length(rawdata)#64

#两种归一化方法,推荐使用rma
eset.mas5 <- mas5(rawdata) #综合考虑pm和mm信号,假阳性高,exp数据没有取对数
eset.rma <- rma(rawdata)#基于robust multi-arrary average(RMA)算法衡量表达量,
#只使用pm信号,exp数据已经进行log2处理
#箱线图查看归一化的效果
boxplot(exprs(rawdata))
boxplot(exprs(eset.rma))

#保存表达矩阵
exprSet <- exprs(eset.rma)
write.table(exprSet, "expr_rma_matrix.txt", quote=F, sep="\t")

可看出与直接用getGEO下载的数据略有差异,后续分析还是用网getGEO下载的数据

探针注释

常用id

#提取soft数据信息
library(GEOquery)
setwd(setwd('D:\\GEO数据挖掘与meta分析\\练习\\芯片数据的均一化及探针转换(代码)'))
#下载GPL注释文件
GPL6244 <-getGEO('GPL6244',destdir =".")
GPL6244_anno <- Table(GPL6244)
#如果已经下载了soft文件
GPL6244_anno<-data.table::fread("./GSE43292_family.soft",skip ="ID")
colnames(GPL6244_anno)
[1] "ID"              "GB_LIST"         "SPOT_ID"        
[4] "seqname"         "RANGE_GB"        "RANGE_STRAND"   
[7] "RANGE_START"     "RANGE_STOP"      "total_probes"   
[10] "gene_assignment" "mrna_assignment" "category"    

使用R包提出探针和基因名称对应的关系

R有很多注释包,首先我们要知道什么平台用什么R包。 platformMap.txt文件(果子老师整理)


读入R语言

platformMap <- data.table::fread("platformMap.txt")

为了方便查询,果子老师写了以下的代码,每次只要修改平台的名称即可

index <- "GPL6244"
paste0(platformMap$bioc_package[grep(index,platformMap$gpl)],".db")
[1] "hugene10sttranscriptcluster.db"(输出结果)
library(hugene10sttranscriptcluster.db)
probe2symbol_df <- toTable(get("hugene10sttranscriptclusterSYMBOL"))

得到探针与id的对应关系

正式进行探针ID之间的转换

准备表达矩阵
##下载数据GSE43292
eSet <- getGEO("GSE43292", 
               destdir = '.',
               getGPL = F)

# 从eSet中提取表达矩阵exprSet
exprSet <- exprs(eSet[[1]])
#如果已经下载好了matrix可直接读取
exprSet <- read.table(file = "./GSE43292_series_matrix.txt", header =TRUE, comment.char = "!")
exprSet

我们要达到的效果是这个样的


把两个数据框按照探针名称合并, 同时在这里,我们还需要把重复的探针去掉,方法就是计算每一个探针的平均值,留下最大的那个。

先调整两个数据框的探针名字和类型,方便合并

names(exprSet)[1] <- names(probe2symbol_df)[1]
exprSet$probe_id <- as.character(exprSet$probe_id)

然后,
重点就来了,下面的代码恢弘大气,一次性完成这两个事情。

library(dplyr)
exprSet <- exprSet %>% 
  inner_join(probe2symbol_df,by="probe_id") %>% #合并探针的信息
  select(-probe_id) %>% #去掉多余信息
  select(symbol, everything()) %>% #重新排列,
  mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>% #求出平均数(这边的.真的是画龙点睛)
  arrange(desc(rowMean)) %>% #把表达量的平均值按从大到小排序
  distinct(symbol,.keep_all = T) %>% # symbol留下第一个
  select(-rowMean) %>% #反向选择去除rowMean这一列
  tibble::column_to_rownames(colnames(.)[1]) # 把第一列变成行名并删除
write.csv(exprSet, "exprSet.csv", quote = F)

不得感叹一下:大神就是牛啊

参考:公众号:果子学生信

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351