GEO 数据是生信技能树生信爆款入门课程数据挖掘部分Day8的讲到的一个重要知识点。为加深理解,现在登录网站做下练习巩固。
一、GEO 数据库简介
GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI)2000 年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括基因芯片,高通量测序数据。目前已发表的论文中涉及到基因表达检测的数据都可以通过 GEO 数据库找到,并且是免费使用。
二、GEO 数据格式
数据库存放四种数据类型:GSE,GDS,GSM 和 GPL。
一个 GSE ID 是指整个研究项目的系列数据,会涉及一到多个实验平台(GPL)
一个 GDS ID 对应同一个实验平台的数据集。
一个 GSM ID 对应一个样本的表达数据信息,GSE,GDS 会包含多个 GSM 的数据。
一个 GPL ID 对应一个实验平台的信息,包括芯片探针的设计和注释信息。
三、GEO 数据库的基本使用
先来看一下每个页面都是什么样子
GPL 页面
进去之后是
GSE 页面
进去之后
GSM 页面
如何使用 GEO 数据库检索呢?
GEO 可以与其他 NCBI 数据库一样可以用标准关键词的方法进行检索,或者直接检索。
例:在 DataSets 搜索「lung cancer」便可寻找有关人类肺癌微阵列实验数据集合。
在右上角出还可以自行选择想要了解的物种,左侧有根据过滤条件选择。
GEO 数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是 GEO 数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理。这个就需要后续的处理了。
4 GEO数据下载:
通过查阅文献,我们可以知道作者提交GEO数据库的GSE数据编号,通过这个编号我们就可以在GEO数据库中搜索相应的GSE编号,然后下载数据了,例如:
然后就可以看到相应的数据信息:
总结下来就是:
GEO 数据库是第一个基因表达数据的公共储存数据库,具有强大的数据收录功能。记录各类芯片数据和测序数据,主要为表达谱数据。用户可以自行上传。数据库是开放的,可供大众下载和使用。
参考
1.GEO 数据介绍及在线下载
2.生信第一课,浅谈 GEO 数据库