GEO(Gene Expression Omnibus, 基因表达数据库)是当今最大、最全面的公共基因表达数据库
GEO的数据主要存放于GEO DataSet和GEO Profile两个数据库内
构成
- 用户提交的原始数据
- Platform
- Samples
- Series
- GEO数据库整理后的数据
- DataSet
- Profile
Platform
- 平台是描述一连串在特定实验中被检测或被定量分析的因素,对应一个提交者和许多样本
- 是关于以高通量方式检查样本的物理试剂的信息,比如寡核苷酸探针组、cDNA、SAGE标签、抗体等
- 一个平台和许多系列有关
- 每个Platform分配有一个检索号,如GPL123
Sample
- 样本是以一个平台为基础,描述某个杂交实验或者实验条件的所有特征因素的大量测量信息,即关与被检查的mRNA样本,实验条件和实验产生的基因表达测量数据信息
- 每个样本有且只有一个平台、一个提交者
描述了每个样本的操作环境、处理方法,以及分离出的各个成分的丰度测量 - 每个Sample分配有一个检索号,如GSM123
Series
- 系列是把构成某个实验的相关样本集中到一起的一个有生物意义的数据集
- 可能还会收集一些已被递呈者注明的重要基因或者分析结果纲要(如:样本收集,样本是如何相关的,如何排序的,分析是如何进行的,聚类数据是如何获得的)
- 一个系列中的样品是通过某一共同的属性联结在一起的,与一个提交者和多个样本有关
系列数据将一系列相关的样本联系起来,提供了整个研究的关注点和描述,也包含了描述提取数据、简要结论和分析的表格
每个Series分配有一个检索号,如GSE123
DataSets
- 由GEO进行分析,把提交到GEO的样本归纳集中到有生物学意义和在统计学上可比较的GEO数据集组(DataSets),以实验为中心
- DataSets能提供关于一个实验的相关梗概,以此作为下游数据挖掘和数据显示工具的基础
- 每个DataSets分配有一个检索号,如GDS123
Profiles
- 表达谱储存了来自DataSets的基因表达谱信息
- 每一个表达谱都表现为一个能反映一个数据集组中所有样本的基因表达量的统计图
- 表达谱储存了一个数据集中一个基因在不同样本中的表达情况,以基因为中心
检索
网址:https://www.ncbi.nlm.nih.gov/geo/
在搜索框输入关键词,可以选择搜索DataSets或Profiles
按数据类型检索
在Browse Content一栏中,我们可以选择在所有的DataSets、Series、Platforms或Samples中进行检索,或者也可以点击Repository Browser,获取更详细的分类信息
在Repository Browser页面中,除了Series、Platforms,Samples,Organisms等大分类外,在每一大分类下还有若干较为详细的分类,我们可以根据需求选择相应的小类进行检索
从NCBI主页检索
NCBI主页中可以找到GEO DataSet和GEO Profile两个字段,可以在这里直接检索
原始数据
由原作者上传的数据存放于Series中
下载
GEO的FTP服务器:ftp://ftp.ncbi.nlm.nih.gov/geo/series/
也可以直接从检索结果中下载