R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载

基于web工具,用户可以对GEO存储的大量数据进行浏览,查询和可视化。通过四种编号GPLGDSGSEGSM可以获得完整的平台,数据集,系列以及样本的信息.

其中属于用户提交的原始数据包括:GPL(Platform),GSM(Sample),GSE(Series)。GEO数据库整理后的数据包括:数据集GDS(DataSets), 表达谱(Profiles).GEO根据平台,数据集,系列和样本四种形式组织数据。

平台(Platform,GPLXXX)检索

平台信息是由微阵列的简要描述和用来确定微阵列模板的数据表构成。最基本的平台想信息是探针列表,它们规定了哪些基因可以在该芯片平台上被检测出来,平台编号以GPL为起始。以GPL6244为例点击网址.

步骤如下:
1.在GEO主界面点击Platform,进入平台检索界面;

GPL1.jpg

2.检索框中输入检索号GPL6244,点击search;跳转至检索结果。

GPL2.jpg

3.点击下图中的“GPL6244”跳转至详细信息。

GPL3.jpg

4.平台包含的信息介绍
打开网址看到平台信息主要包括两个部分,上半部分主要是平台信息的描述(见下图1),下半部分是平台数据信息描述(见下图2)。

平台描述.jpg
表格信息.jpg

平台(Platform,GPLXXX)数据下载

  1. Platform包含的文件,
    一个platform通常包含3种文件:分别是soft文件,minimal文件以及suppl文件,这里我们重点介绍soft文件,soft文件位置见下图:
GPL4.jpg

找到下载文件,soft文件(这里用的例子的文件很大,等待的时间会长些)

soft1.jpg

soft文件下载好了以后,对文件进行解压,将文件的后缀改为“xls”或“xlsx”,用Excel打开该文件,然后我们对soft 文件内容进行解读:soft和miniml都是显示的platform的基础信息。在soft文件中,每种类型的信息以^开头,这里介绍常见的几种类别:

(1)DATABASE代表GEO数据库的基本信息;

(2)PLATFORM代表该平台的基本信息;

(3)SAMPLE代表用该平台得到的样本信息;

(4)SERIES代表使用该平台得到的一组样本。

在每种类别中,!开头代表一种类型的信息,常规格式为key = value

对于芯片平台而言,还会提供探针和基因之间的对应关系等信息,在对应的网页上,我们可以看到如下的表格:

soft2.jpg

miniml中的内容和soft是一样的,只是用XML格式来存储上述信息,而supplement file则是由提交者自己上传的一些补充文件,没有明确的格式。

样本(Sample,GSMXXX)

在基因芯片实验中,一个样本中所有基因的表达水平通常由一张芯片来检测,样本信息由检测的生物材料的描述,所遵循的实验协议和包含检测丰度值的数据表构成,样本编号以GSM为起始。

我们以GSM247678为例,进行检索。打开GEO数据库官网,(网址:点击网址.),进入检索页面如下图:

GSM1.jpg

点击samples跳转至样本平台见下图:

GSM2.jpg

在检索框中输入GSM247678,点击search,跳转至检索结果,见下图:

GSM3.jpg

点击下图GSM247678,跳转样本检索结果。

GSM4.jpg

通过下图第一部分可以看到GSM247678样品的描述信息

GSM5.jpg

通过下图第二部分可以看到GSM247678样品所用的芯片平台和系列信息。

GSM6.jpg

然后我们通过下图可以查看全部表格数据和下载原始数据。

GSM7.jpg

系列(Series,GSEXXX)

系列是由数据提供者交给GEO的一次实验的基因芯片数据,这些数据具有明确的研究目的,是用户使用GEO时经常采用的一种数据查询和下载方式,系列编号以GSE为起始。

接下来我们以GSE24673为例,介绍GSE系列数据的检索和结果解读。

首先打开GEO数据库官网(网址:点击网址.),点击Series 进入检索页面如下图:

GSE1.jpg

点击Series,跳转至系列,见下图:

GSE2.jpg

在检索框中输入GSE24673,点击search命令,结果见下图:

GSE3.jpg

点击检索框中的GSE24673,调整至检索结果,,这一部分主要描述的是GSR系列的一些基本信息,包括文章题目,摘要,种属等,详细说明见下图:

GSE4.jpg

这一部分主要描述的是所使用的芯片平台信息以及样本信息,详细见下图:

GSM5.jpg

这一部分描述的是GSE提供的下载文件,包括SOFT文件,MINIMl 文件,Series Matrix File(s)以及原始数据文件,数据分析时,我们会用到Series Matrix File(s)文件或者原始数据详细见下图:

GSE6.jpg

正确的分析是建立在对数据的正确理解之上,所以在做分析之前,我们需要理解数据的基本信息,最基本的几条内容:第一从Title 翻译到 Over design,了解文章的标题物种实验类型摘要总体设计。其他需要关注的问题就是系列中的样本数量,N个样本按照实验设计是如何分组的,分成几组。

最后,谢谢各位伙伴的支持,我是青盐,一个自学生信,并致力于在新疆推广生信分析技能的菜鸟,今天给大家分享的内容就到这,青盐在这里与每一位生信自学者共学,共勉,加油加油。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容