今天想复现一下一篇芯片平台为GPL17077的文章,发现该平台没有对应的R包。
按照之前的思路:
一般有三种方法可以得到芯片探针与gene的对应关系:
金标准当然是去基因芯片的厂商的官网直接去下载啦
一种是直接用bioconductor的包。
一种是从NCBI里面下载文件来解析好!
尝试第三种方法,发现下载速度真的是......无解。
虽然前面分享了生信技能树良心佳作-Jimmy的四个GEO分析的万能R包内容如下:软件刚刚出炉的时候只是演示了一下,还没有真正用过。发现GPL17077在idmap2中。现在还不知为啥分为两个包。
options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
#加载万能包
library(GEOmirror)
library(idmap1)
library(idmap2)
library(idmap3)
#了解一下每个包
ls('package:GEOmirror')
ls('package:idmap1')
ls('package:idmap2')
ls('package:idmap3')
#下载数据
geoChina('GSE97368')
load("GSE97368_eSet.Rdata")
gset
a=exprs(gset[[1]])
a[1:4,1:4]
gset[[1]]@annotation
#发现GPL17077在idmap2包中
ids <- getIDs("GPL17077")#失败
idmap2::get_soft_IDs('GPL17077')#成功
head(ids)
ls('package:idmap1')
ls('package:idmap2')
idmap2::get_soft_IDs('GPL17077')
idmap1解决了bioconductor包下载困难的问题,idmap2解决了GPL平台的soft文件下载困难,而这个idmap3解决了那些并不提供探针的注释信息的平台。
最关键的是还有一个万能的包,AnnoProbe。Jimmy创建这个一系列的包初衷可以从 :有趣的是,因为这些包存储在GitHub,而且每个包自带的数据是40~50M,对很多在中国大陆的朋友来说, 几乎是不可能完成,所以我把这4个包整合成为了一个GitHub包(AnnoProbe)!总共不到5M,相信大家使用起来应该是很方便啦!
看出来。
保姆式的教学-----为大家更好的学习体验操碎了心。
致敬Jimmy!