如何判断你的GEO数据中的count值是否为log后的

我下载了4个GEO乳腺癌的数据集,想要把它们整合为一个数据集,在获取了表达矩阵,提取了想要的数据,并且注释了探针名后,我想,终于可以整合了,然后,我就遇到了问题。
除了其中一个矩阵表达量都在3000左右,一看就需要log,其他的好像都是log后的。
怎样批量判断是否需要log化呢?
我就回去翻了果子老师的视频,发现了一段代码


# 自动log化
ex <- exprSet
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
  (qx[6]-qx[1] > 50 && qx[2] > 0) ||
  (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

if (LogC) { 
  ex[which(ex <= 0)] <- NaN
  exprSet <- log2(ex)
  print("log2 transform finished")
  }else{
    print("log2 transform not needed")
    }

用这个段代码批量处理了我的四个数据集,发现一个需要log2,其他三个都不需要。
然后log2一个表达矩阵就好了~
然后我还有两个问题没有解决:
所有的GEO数据库里的log都是取得log2吗?就没有哪个哥们想要log10一下?是不是值之间的差异就太小了?
第二,如何根据GSE号追溯回源文章呢?根据citation的好像不对啊
遇到的问题好多,要一点一点来了~
感悟:遇不到问题,是真的不会去好好看视频做笔记的,哎。。。。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 健明大神说过若是想学会使用R包,就去看那个包的说明书,因此去学习了GEOquery包说明书。翻译不当之处请去看原文...
    土豆学生信阅读 42,143评论 1 80
  • 以下是B站生信技能树GEO数据库挖掘的课程笔记 主要内容及学习目的: 介绍GEO数据库:了解数据存放位置; 介绍G...
    黄晶_id阅读 49,893评论 66 383
  • 使用GEOquery包 肖恩戴维斯 2014年9月21日 1GEO概述 1.1平台 1.2样品 1.3系列 1.4...
    Greatji阅读 1,040评论 0 1
  • GEO再学习 GEO数据挖掘已经成为生信学者必备技能,我以为自己会跑代码了就是会了,其实呢,细细去领会每个细节,还...
    小梦游仙境阅读 3,496评论 0 26
  • 每天随手拍,留住瞬间的美好~加倍美好!我们来啦! 本周主持——水若本周主题——【清凉一夏】 1、宝贝小鱼儿——夏天...
    水若_小水呓梦阅读 264评论 0 0