本文首发于“生信大碗”公众号,转载请注明出处
今天要给大家分享一个实用的差异分析工具——GEO2R。不需要语言基础,直接点点点就可以完成。
GEO2R是GEO数据库中的一个在线分析工具,那么在介绍如何使用GEO2R之前,先来给大家简单介绍一下GEO数据库。
GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,主要储存芯片、二代测序以及其他高通量测序数据。目前大约百分之九十已经发表的论文中涉及到的基因表达检测的数据都可以通过这个数据库找到。
GEO2R差异分析步骤:
1、进入GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)。
2、点击上图红色圈处的“series”,得到下图。
Series代表数据集,缩写为GSE;
Samples代表样本,缩写为GSM;
Platforms代表测序用的芯片的类型,缩写为GDL;
Datasets是经GEO团队分析被整理过的数据集,缩写为GDS,相比于GSE,GDS可能更加可靠。
3、下面我们以检索HCC(肝细胞癌)得到的数据集GSE166163为例,继续讲解。
4、点击进入GSE166163后下拉,点击下图中的Analyze with GEO2R。
5、得到如下图所示界面。差异分析是分析组与组之间基因表达的差异,那么我们要做的第一步就是定义分组(点击Define groups进行)。
6、在定义分组方框内分别输入各组的名称,直接按Enter键即可创建,如图所示,我创建了两个组——normal组和tumor组。
7、我们先勾选下方肿瘤组三个样本,鼠标长按滑动即可,当三个样本出现一致颜色后,点击定义分组框中的tumor即可将选中样本加入tumor组,按上述方法添加normal组样本。
8、分组完成后,直接点击下方Analyze,即可得到差异分析的结果和图。
(这一步可能会因为网络原因或者分析的数据较大花费一些时间)
9、下图是我们得到的肿瘤组与正常组差异分析的结果。
图上半部分是我们得到的差异分析的火山图等,下半部分是差异分析结果的表格。
小结
1、为什么有些数据集没有GEO2R的这个工具显示呢?
答:GEO2R分析工具是基于R语言写的分析工具,R语言处理不同数据时,所需要的脚本不同。GEO收录了很多不同的数据类型,如芯片数据和二代测序数据,而GEO2R只能分析芯片数据,也就是Series type列以array结尾的数据类型。而一般以high throughput sequencing结尾的数据类型二代测序。
2、为什么这个火山图的可视化界面没有颜色差异呢?
答:关于火山图的颜色,我们一般得到的火山图如下图,每个点代表一个基因,红色代表实验组高表达的基因,蓝色代表实验组低表达的基因,中间灰色代表在实验组和对照组中的表达差异没有统计学意义的基因。
那这么说,我们分析的这个数据集GSE166163没有意义吗?
其实不是的。GEO2R分析是以调整后的p值(FDR)计算统计学意义的,你可以根据自己的需要选择其他的矫正方法或者就用p值进行筛选,这样也可以得到一些有意义的基因。
本文首发于“生信大碗”公众号,转载请注明出处
—END—