GEO2R(GEO to R)是GEO数据库自带的数据分析工具。GEO2R可以通过可视化的方式对基因表达谱进行统计学分析,在操作上非常方便,但是,某些数据集不提供GEO2R功能,且当样本数目较大时,手动选取样本也比较不便。此外,GEO2R的进行分析时单次分析的运算时间被限制在10分钟以内,因此如果样本数量很大,有可能无法完成分析。下面对GEO2R的基本操作进行介绍,关于GEO2R的更多信息请参考官方文档https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html
操作步骤
- 完成基因表达谱数据集的检索后,点击条目,进入详情页面
- 在靠近页面底端的位置,可以找到
Analyze with GEO2R
按钮,点击即可打开GEO2R操作界面
- 页面加载完成后,可以看到一张记录了所有样本信息的表格。这里需要我们手动对样本进行分组。点击
Define groups
,输入组名之后按Enter
即可建立一个新分组。由于不同的数据集的实验设计有所不同,分组应该根据实际情况灵活进行。 -
选中表格中的样本,点击组名,即可将选中的样本加入这一组中。
- 完成分组后,在GEO2R选项卡中点击Analyze即可对数据进行分析
-
分析完成后,网页下方会显示分析结果。Visualization板块中显示了不同格式的图形可视化结果,包括常见的火山图、维恩图等。Top differentially expressed genes板块中则列出了表达差异具有统计学意义的基因,点击Download full table即可将这张表下载下来。
字段
点击Select columns可以增加或减少结果表格中的字段。字段可分为数据(Data columns)和注释(Annotation columns)两类。注释字段与数据集的注释文件有关,不同的数据集可选的字段可能有所不同。
数据部分各字段的含义见下表
字段 | 含义 |
---|---|
Adj P-value | 调整P值 |
P-value | P值 |
t-statistic | t值(检验统计量) |
B-value | Log odds |
logFC | Log fold change(差异倍数的对数),正数代表上调,负数代表下调 |
F-statisti | F值(检验统计量) |
选项
在Option选项卡中我们可以指定在进行差异分析时的统计学方法以及图表的参数。
Apply adjustment to the P-values:计算调整P值的方法,默认为Benjamini & Hochberg false discovery rate
Apply log transformation to the data:GEO2R会对实验数据进行检测,如果有必要,GEO2R就会自动将数据取对数。这个选项可以强制GEO2R进行或不进行对数转换,默认为自动检测。Limma包(进行差异分析时使用的R包)需要使用经过对数转换的数据,但是原始数据是否已经经过对数转换是不确定的,因此如果原始数据未经对数转换,就需要对其取对数,否则结果就会出错(比如原本有差异的数据做不出差异)。
Apply limma precision weights (vooma):使用vomma函数估计均值-方差关系,并用它来计算适当的观测水平权重
Force normalization:对表达数据使用quantile normalization
Category of Platform annotation to display on results:GEO2R会对数据进行注释。原始的数据一般只包括探针名称、样本名称、表达数据等信息,而经过注释的数据会显示包括探针对应的基因名称在内的多种有用的信息。注释信息的来源有两种:
- Submitter supplied:由实验者提交的注释信息,其样式和内容可能有较大的差异,而且可能没有及时更新
- NCBI generated:有NCBI自动生成并定期更新的注释信息、
Plot displays:这组选项主要控制图表的生成
- Significance level cut-off:默认情况下,GEO2R认为当P小于0.05时差异是显著的(在火山图等图表中这些有显著差异的基因会用特殊的颜色标注),如果有特殊需要,这个标准可以在这里修改。
- Volcano and MA plot contrasts:火山图、维恩图等图表只能用于两个数据组之间的比较,因此如果定义了多个数据组的话,GEO2R会对这些数据组进行两两组合,每个组合生成一张图表。但是这个组合的上限是五组,因此如果定义了很多数据组,可以在这里选择要生成图表的数据组合。
剖面图
在Profile graph选项卡中输入探针的名称,可以显示该探针检测的不同样本的表达情况
点击View data for GPL...可以查看平台文件(平台文件通常会记录探针和基因的对应情况)
R脚本
在R script选项卡中可以看到GEO2R使用的R语言脚本。