GEO数据库常用分析工具
- GEO DataSets提供的分析工具
- GEO2R
GEO DataSets提供的分析工具
在GEO DataSets的详情界面有一个Data Analysis Tools板块,在这里由一些实用的分析工具
Find genes
- Find gene name or symbol:查找该DataSet中某一基因的Profile
- Find genes that are up/down for this condition(s):将数据按照特定的标准分组,在该DataSet中查找在这种分组条件下组间存在差异表达的基因的Profile
Compare 2 sets of samples
用于获取在选定的两组样本之间差异表达的基因
- 选择检验方法和显著性水平
- 对数据进行分组
- 进行比较
选择检验方法和显著性水平
可选择的检验方法有
- Two-tailed t-test (A vs B):双尾t检验
- Ont-tailed t-test (A > B):单尾t检验
- Ont-tailed t-test (A < B):单尾t检验
- Value means difference:不知道是啥
- Rank means difference:不知道是啥,大概是秩和之类的东西吧
可选择的显著性水平有
- 0.100
- 0.050
- 0.010
对数据进行分组
我们需要将数据分成两组,点击Select which Samples to put in Group A and Group B
面板中共有两个样本名称的列表,每一列代表一个组中的样本,点击样本名称就可以选中相应的样本
进行比较
点击Query Group A vs. B即可进行比较
Cluster heatmaps
用于生成聚类分析的热图,聚类分析的方法有以下几种
- Hierarchical
- Partitional (K-means/K-medians)
- By location on chromosome
Hierarchical
方法
可修改的参数有Distance和Linkage,点击Display即可进行聚类分析
Distance可设置为
- Uncentered Correlation
- Pearson Correlation
- Euclidean
Linkage可设置为
- Average/UPGMA
- Single
- Complete
结果
- 分析完成后会显示一张热图,点击热图,会显示一个选择范围,可以调整选区的高度,选中感兴趣的基因
- 点击Stack up或双击选区即可显示选中的基因详细的信息和表达情况
- 点击Download可以下载选中的基因的表达数据
- 点击Plot values可以显示选中的基因的表达量的可视化结果,结果页面中提供了三个按钮
- Download displayed data:下载途中的基因数据,效果与之前的Donwload按钮一直
- Show heat map region:跳转到热图界面,效果与之前的Stack up按钮一致
- View profiles in Entrez:检索图中基因的Profiles
Partitional (K-means/K-medians)
方法
- 在Color Options中可以选择高表达的基因和低表达的基因用什么颜色表示
- 在Clustering Options中可以选择聚类分析的选项,可修改的选项有Distance、K-method和Clusters, k
- Distance
- Uncentered Correlation
- Pearson Correlation
- Euclidean
- K-method
- Mean
- Median
- Clusters, k:2-15
- Distance
- 点击Display即可进行聚类分析
结果
分析结束后根据Clusters, k设定的数量将基因分成若干组,每组生成一张热图,点击热图即可显示热图中基因详细的信息和表达情况
点击热图,同样会出现一个选区,在这里同样可以使用Download、Plot values、View in Entrez、Stack up等功能
By location on chromosome
选择这一选项后GEO会按照基因所在的染色体对DataSet中的基因进行分类,并显示热图
点击热图,同样会出现一个选区,在这里同样可以使用Download、Plot values、View in Entrez、Stack up等功能
Experiment design and value distribution
用于质量控制,判断数据是否经过归一化
GEO BLAST
网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=GeoBlast&PAGE_TYPE=BlastSearch
GEO2R
GEO2R(GEO to R)是GEO数据库自带的数据分析工具。GEO2R可以通过可视化的方式对基因表达谱进行统计学分析,在操作上非常方便,但是,某些数据集不提供GEO2R功能,且当样本数目较大时,手动选取样本也比较不便。此外,GEO2R的进行分析时单次分析的运算时间被限制在10分钟以内,因此如果样本数量很大,有可能无法完成分析。下面对GEO2R的基本操作进行介绍,关于GEO2R的更多信息请参考官方文档https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html
操作步骤
- 在DataSet的Reference Series中找到对应的Series或直接搜索Series,在对应的页面中即可找到Analyze with GEO2R按钮
- 在靠近页面底端的位置,可以找到
Analyze with GEO2R
按钮,点击即可打开GEO2R操作界面 - 页面加载完成后,可以看到一张记录了所有样本信息的表格。这里需要我们手动对样本进行分组。点击
Define groups
,输入组名之后按Enter
即可建立一个新分组。由于不同的数据集的实验设计有所不同,分组应该根据实际情况灵活进行。 - 选中表格中的样本,点击组名,即可将选中的样本加入这一组中。
- 完成分组后,在GEO2R选项卡中点击Analyze即可对数据进行分析
- 分析完成后,网页下方会显示分析结果。Visualization板块中显示了不同格式的图形可视化结果,包括常见的火山图、维恩图等。Top differentially expressed genes板块中则列出了表达差异具有统计学意义的基因,点击Download full table即可将这张表下载下来。
字段
点击Select columns可以增加或减少结果表格中的字段。字段可分为数据(Data columns)和注释(Annotation columns)两类。注释字段与数据集的注释文件有关,不同的数据集可选的字段可能有所不同。
数据部分各字段的含义见下表
字段 | 含义 |
---|---|
Adj P-value | 调整P值 |
P-value | P值 |
t-statistic | t值(检验统计量) |
B-value | Log odds |
logFC | Log fold change(差异倍数的对数),正数代表上调,负数代表下调 |
F-statisti | F值(检验统计量) |
选项
在Option选项卡中我们可以指定在进行差异分析时的统计学方法以及图表的参数。
- Apply adjustment to the P-values:计算调整P值的方法,默认为Benjamini & Hochberg false discovery rate
- Apply log transformation to the data:GEO2R会对实验数据进行检测,如果有必要,GEO2R就会自动将数据取对数。这个选项可以强制GEO2R进行或不进行对数转换,默认为自动检测。Limma包(进行差异分析时使用的R包)需要使用经过对数转换的数据,但是原始数据是否已经经过对数转换是不确定的,因此如果原始数据未经对数转换,就需要对其取对数,否则结果就会出错(比如原本有差异的数据做不出差异)。
- Apply limma precision weights (vooma):使用vomma函数估计均值-方差关系,并用它来计算适当的观测水平权重
- Force normalization:对表达数据使用quantile normalization
-
Category of Platform annotation to display on results:GEO2R会对数据进行注释。原始的数据一般只包括探针名称、样本名称、表达数据等信息,而经过注释的数据会显示包括探针对应的基因名称在内的多种有用的信息。注释信息的来源有两种:
- Submitter supplied:由实验者提交的注释信息,其样式和内容可能有较大的差异,而且可能没有及时更新
- NCBI generated:有NCBI自动生成并定期更新的注释信息、
-
Plot displays:这组选项主要控制图表的生成
- Significance level cut-off:默认情况下,GEO2R认为当P小于0.05时差异是显著的(在火山图等图表中这些有显著差异的基因会用特殊的颜色标注),如果有特殊需要,这个标准可以在这里修改。
- Volcano and MA plot contrasts:火山图、维恩图等图表只能用于两个数据组之间的比较,因此如果定义了多个数据组的话,GEO2R会对这些数据组进行两两组合,每个组合生成一张图表。但是这个组合的上限是五组,因此如果定义了很多数据组,可以在这里选择要生成图表的数据组合。
剖面图
在Profile graph选项卡中输入探针的名称,可以显示该探针检测的不同样本的表达情况
点击View data for GPL...可以查看平台文件(平台文件通常会记录探针和基因的对应情况)
R脚本
在R script选项卡中可以看到GEO2R使用的R语言脚本。