判断GEO芯片数据表达矩阵是否需要log2转换

通过exprs函数获取表达矩阵后我们可以通过以下三种方法判断是否需要进行log2转换

1.肉眼识别

最简单粗暴的方法就是,根据数值大小粗略估计:
如果表达量的数值在50以内,通常是经过log2转化后的。如果数字在几百几千,则是未经转化的。因为2的几十次方已经非常巨大,如果2的几百次方,则不符合实际情况。

比如,下面这个矩阵,我们肉眼就能看到数值都是个位数字,最大也就十几,这就是log处理过的:



这个矩阵数字就很大,这时候需要log2转换:


2.根据标准化处理方法推算

GSE数据下载界面中的SOFT文件和Series Matrix File(s)文件中均有描述该系列的数据是如何进行标准化处理的,常见的标准化处理方法有3种:RMA算法、GC-RMA算法、MAS5算法,其中前两中算法的返回值已经经过log2转换,可直接进行差异表达分析,第三种算法返回值未经过log2转换,需要自行进行log2转换


打开下载好的Series Matrix File(s)文件—GSE42872_series_matrix.txt,查看数据使用的是哪种标准化处理方法。

发现使用的是RMA算法,我们知道该算法的返回值已经经过log2转换,可直接进行差异表达分析。

3.使用脚本自动判断是否需要log转换

## 下载数据GSE42872
rm(list = ls())
library(GEOquery)
eSet <- getGEO("GSE42872", 
               destdir = '.',
               getGPL = F)


# 从eSet中提取表达矩阵exprSet
exprSet <- exprs(eSet[[1]])

#对得到的表达矩阵操作
ex <- exprSet
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
  (qx[6]-qx[1] > 50 && qx[2] > 0) ||
  (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

if (LogC) { ex[which(ex <= 0)] <- NaN
exprSet <- log2(ex)
print("log2 transform finished")}else{print("log2 transform not needed")}

这个脚本会自动判断是否需要log2转化,上面我们知道GSE42872数据是log2过后的,所以这里会返回:

[1] "log2 transform not needed"

如果没有log话,他自动log2,并且返回:

"log2 transform finished"

判断是否需要log2转换脚本来自果子学生信简书

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,875评论 0 10
  • Hive函数 Hive函数 一、关系运算: 等值比较: = 语法:A=B操作类型:所有基本类型描述:如果表达式A与...
    依天立业阅读 887评论 0 8
  • matlab命令 声明:本文转自:https://www.douban.com/note/136332003/ 侵...
    我就是个初学者阅读 14,137评论 0 44
  • 第一章 前端三大语言:HTML(专门编写网页内容)、CSS(编写网页样式)、JS(专门编写网页交互行为) 能简写尽...
    fastwe阅读 1,062评论 0 0
  • 总结了一些开发中常用的函数: usleep() //函数延迟代码执行若干微秒。 unpack() //函数从二进制...
    ADL2022阅读 483评论 0 3