2021-06-24 GEO数据库

GEO数据库全称GENE EXPRESSION OMNIBUS，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年，收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的！

NCBI Gene Expression Omnibus（GEO）作为各种高通量实验数据的公共存储库。这些数据包括基于单通道和双通道微阵列的实验，检测mRNA，基因组DNA和蛋白质丰度，以及非阵列技术，如基因表达系列分析（SAGE），质谱蛋白质组学数据和高通量测序数据。

在GEO最基本的组织层面，有四种基本实体类型。前三个（样本，平台和系列）由用户提供; 第四，数据集由GEO工作人员根据用户提交的数据进行编译和策划。

检索

网址：https://www.ncbi.nlm.nih.gov/geo/

或者通过NCBI首页，All Databases下拉框中选择GEO DataSets，输入关键词即可搜索。

这里以检索胃癌（stomach cancer ）的数据为例。

1

1、Entry type有四种:Datasets，Series，Samples，Platforms。这也是GEO主要的四类数据。
1.1 GEO Dataset (GDS)：GDS是人工整理好的关于某个类别的GSM的集合
1.2 GEO Series (GSE)：GSE是一个实验项目中的所有样本的芯片实验数据集合
1.3 GEO Sample (GSM)：GSM是单个样本的实验数据
1.4 GEO Platform (GPL)：GPL是芯片的平台，如Affmetrix, Aglent等
一篇文章可以有一个或者多个GSE数据集，一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS，不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台，就是GPL。一个GSM可以有多个GSE，每个GSM都会对应其测序平台GPL，GDS一般不接触，我们通常接触的都是GSE系列的数据。

平台:
平台记录描述阵列上的元件列表（例如，cDNA，寡核苷酸探针组，ORF，抗体）或可在该实验中检测和定量的元件列表（例如，SAGE标签，肽）。每个平台记录都分配有唯一且稳定的GEO登录号（GPLxxx）。平台可以引用多个提交者提交的许多样本。
样品:
样品记录描述了处理单个样品的条件，它经历的操作以及从中得到的每个元素的丰度测量。每个样品记录都分配有唯一且稳定的GEO登录号（GSMxxx）。Sample实体必须仅引用一个Platform，可以包含在多个Series中。
系列
系列记录定义了一组被认为是组的一部分的相关样本，样本如何相关，以及它们是否以及如何排序。A系列提供了整个实验的焦点和描述。系列记录还可能包含描述提取数据，摘要结论或分析的表格。每个系列记录都分配有唯一且稳定的GEO登记号（GSExxx）。
数据集
GEO DataSet（GDSxxx）是GEO样本数据的精选集合。GDS记录代表了一系列具有生物学和统计学意义的GEO样本，构成了GEO数据显示和分析工具套件的基础。GDS中的样本指的是同一个平台，也就是说，它们共享一组共同的探测元素。假设GDS中每个样本的值测量值以等效方式计算，即背景处理和标准化等考虑因素在整个数据集中是一致的。通过GDS子集提供反映实验设计的信息。
记住大小关系：一个GDS可以有多个GSM，一个GSM可以有多个GSE，至于GPL，一般不接触，我们通常接触的都是GSE系列（一个GSE里面有多个GSM）的数据。

2
点击Customize ...可以添加指定的物种，也可以直接点击9处进行筛选，一般不是人就是鼠，通常是选择人。

3
通过研究类型进行筛选，比如二代测序转录组数据、chipseq、芯片数据的甲基化，单核苷酸突变等进行筛选。

4
Author是根据作者进行筛选，一般用不到。

5
属性名称，表示数据来自于组织还是特定的细胞类型。

6
Publication dates是指初版日期。点击Custom range...可以进行筛选时间。

7
设置每页显示搜多结果的个数

8
选择排序方式

9
筛选组织来源

10
选择相应的数据库，展示搜索细节

搜索结果

GDS编号检索结果页面，以GDS402为例

GSE编号检索结果页面

一般我们想要下载的处理好的数据都在supplementary file存放。

GSM编号检索页面
因为我们在supplementary file下载的是处理好的数据，然后用于下游的分析。所以拿到数据后最关心的是这个数据是怎么处理的。点击Samples中的GSM3822269，便可查看单个样本的数据处理过程。

在红色框中，可以得知：使用Illumina HiSeq 2000测序仪进行测序，下级得到FASTQ文件，然后使用BWA-Bowtie-Cufflinks进行比对、定量，比对时候选择的是hg19参考基因组。最后我们在supplementary file中下载得到是FPKM值的表达矩阵。得到这些信息后，下游的很多分析才能科学的进行。

测序平台

世界上主流的芯片制造商有4家，分别是Affymetrix，Agilent，Nimblegen以及Illumina。每家都会针对不同物种、不同测序类型推出不同的芯片，甚至不同时期推出的不同版本芯片的探针也不一样这就会出现各种各样的探针信息。但是我们研究主要关注点是gene symbol。因此对于芯片数据，我们要重点关注的信息是测序平台，以GPL7202为例

点击download full table下载，该文件主要是用于探针id转化。

指定检索

可以通过库浏览器（repository browser ）从库中选择要下载的文件夹内容下载。点击红色框进入repository browser。

进入的页面后我们可以看见，数据类型，平台，样本和物种的选项，我们可以通过其进行检索。
比如我们寻找chipseq数据，就选择数据类型中Genome binding/occupancy profiling by high throughput sequencing

寻找EZH2相关的chipseq

筛选人源EZH2相关的chipseq（点红色框）

下载原始数据

在supplementary file中有时候作者并没有给出处理后的数据，或者给出的数据不全，我们只能下载原始的fastq数据进行比对、定量拿到表达矩阵。fastq文件一般会存放在SRA数据库中，我们可以通过GEO数据库去SRA中下载原始文件。

进入SRA数据库中

选择需要下载的样本

在data access中下载，建议用迅雷下载，比较稳定

在线分析工具

我们再看看GDS号检索的结果页面
网址：https://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS402

Find gene工具

该工具用于直接查找该数据集中该基因的表达谱数据。

我们以检索brca1基因为例

进入一个新的界面

往下拉我们会找到一个Brca1的一个表达谱数据集。

点击右侧的图进入详细页面，该页面具有该基因在各个样本中的表达信息，并且样本的分组信息也有。

Find genes that are up/down for this condition(s)可以根据选择的实验筛选条件来找到一序列随该筛选条件有较明显表达差异的基因表达谱。假设我们要检索和疾病分期有关的上调或下调的基因。

可以看到检索到了79个基因。

我们点击第一个基因，同样可以看到该基因的详细信息。

Compare 2 sets of samples工具

step1:选择比较方式和显著性水平
step2：选择A和B两样本组
step3：比较A样本和B样本

我们点击Step2： Select which Samples to put in Group A and Group B会弹出一个窗口，让我们自己进行分组。我们可以看见A组合B组的GSM号是一样的，需要将他分在哪一组就在哪一组点击一下就行。背景变为深灰色就表示被选中，这里将GSM9920-GSM9925定位A组，其余定位B组。点击OK.

点击OK后我们会看见Step2下面会出现分组的样本编号。

点击Query Group A vs. B我们就会获得5608个表达差异的基因。

Cluster heatmaps工具

Cluster heatmaps聚类分析图包含三种聚类算法
1.层级聚类方法：（Single-Link:最近距离、Complete-Link：最远距离、Average-Link:平均距离）
2.分散性聚类方法：
K- Medioids算法（特点：用类中的某个点来代表该聚类：优点：能处理任意类型的属性；对异常数据不敏感）
K-Means算法（特点：聚类中心用各类别中所有数据的平均值表示：优点：应用最为广泛；收敛速度快：能扩展以用于大规模的数据集；缺点：倾向于识别凸形分布、大小相近、密度相近的聚类：中心选择和噪声聚类对结果影响大）
3.按基因处于染色体上位置来聚类

点击Display，或获取一个聚类的热图，鼠标放在热图上谁有一个红色的虚线框，可以通过上下拖动边框调整选择的区域大小。可以点击DOWNLOAD 下载数据。

点击Stack up 可以将所选择的区域放大，能够看见基因名称。

点击Plot value可以看见探针在样本中的曲线图。

此外Cluster heatmaps工具中还有一个(K-means/K-medians)的聚类。

通过设置高低表达的颜色，设置聚类个数（cluster，2-15），这里选择4，点击Display

而对于By location on chromosome，是将基因定位于染色体上进行分析。

Experiment design and value distribution工具

这就是每个样本中所有基因表达值的一个汇总，这是归一化后的箱线图，看起来质量不错。

GEO2R

GEO2R是一个交互式web工具，它允许用户比较GEO系列中的两组或两组以上的样本，以便识别在不同实验条件下表达不同的基因。结果显示为按重要性排序的基因表。
GEO2R使用Bioconductor项目中的GEOquery和limma R包对原始提交者提供的处理过的数据表执行比较。
与GEO的其他数据集分析工具不同，GEO2R不依赖于精心设计的数据集，而是直接查询原始的系列矩阵数据文件。这使得及时分析更多的地理数据成为可能。然而，重要的是要认识到，无论数据类型和质量如何，这个工具几乎可以访问和分析任何GEO系列。

在GSE检索结果页面就可以看到这个工具，这里以GSE49382为例

点击Analyze with GEO2R进入页面可以看见所有样本的信息列表

通过Define groups将样本进行分组,输入相应的组名

点击组A，会弹出一个对话框，让你选择要归入A组的样本，点击相应的样本即可（按住Crtl多选）

点击analyze

结果在浏览器中显示为按p值排列的前250个基因的表。p值最小的基因最显著。单击一行显示该基因的基因表达谱图。图中的每个红条表示从原始提交者提供的样例记录的value列中提取的表达式度量。
使用Select columns特性修改表中包含哪些数据和注释列。有关数据列含义的信息在Summary statistics部分中提供。
在Options选项卡中编辑测试参数，然后回到GEO2R选项卡并单击Recalculate来应用编辑。
要查看超过前250个结果，或者如果想保存结果，可以使用save all results按钮下载完整的结果表。下载的文件以制表符分隔，适合在Excel等电子表格应用程序中打开。

Options

Apply adjustment to the P-values

Limma包提供了几个p值调整选项。这些调整，也称为多次测试纠正，试图纠正错误阳性结果的发生。默认选择Benjamini & Hochberg错误发现率方法，因为它是对微阵列数据最常用的调整，并在发现统计上重要的基因和限制假阳性之间提供了良好的平衡。

Apply log transformation to the data

GEO数据库接受各种数据值类型，包括logged和未logged的数据。Limma包需要使用logged数据为了解决这个问题，GEO2R有一个自动检测特性，它检查所选样本的值，并自动执行log2转换。可选择是否自动转换。

Category of Platform annotation to display on results

选择要在结果上显示的注释类别。基因注释来自于相应的平台记录。有两种注释类型:
NCBI生成的注释可用于许多记录。这些注释是通过从平台中提取稳定的序列识别信息，定期查询Entrez基因和UniGene数据库，生成一致的、最新的注释而得到的。默认情况下选择基因符号和基因标题注释。NCBI生成的注释的其他类别包括GO术语和染色体位置信息。
提交者提供的注释可用于所有记录。这些表示提交者提供的原始平台注释。请注意，提交者提供的注释在样式和内容上有很多多样性，而且自提交时起可能就没有更新过。

Profile graph

通过从平台记录的ID列输入相应的标识符来查看特定的基因表达谱图。此功能不执行任何计算;它只是在样本间显示基因的表达值。要使此功能正常工作，不需要定义示例组。

R script

此选项卡打印用于执行计算的R脚本。这些信息可以保存下来，作为计算结果的参考。

参考：https://zhuanlan.zhihu.com/p/72484266
公众号：Bioinformation