GEO数据库挖掘（2）--快速锁定目标数据

原创小猎豹科研猫 2019-03-02

在上一期的推文GEO数据库挖掘（1）--SCI文章速成，我们讲解了关于GEO数据库的背景知识，想必大家也了解了GEO是一个非常实用和权威的基因表达谱数据库。那么如何检索自己想要的数据呢？

GEO中的数据千千万万条，能够准确筛选出符合我们研究方向的数据至关重要，是整个数据挖掘工作的核心和基础。如果没有合适的数据，后续的所有分析都是纸上谈兵。那么今天就带领大家来进行实战演练，学习一下如何从GEO中找到我们想要的数据。为了让演练更加贴近实际，我们先设定一个问题，然后逐步带领大家进行操作。

研究课题：比较肝癌及正常肝组织的表达谱差异

实战操作

多图预警，轻点图片，查看高清大图原文链接

Step1：查找

打开GEO官方网页，在搜索框中输入“Hepatocellular carcinoma”，并点击Search（红框所示），结果如下图所示，出现了一个下拉菜单，一个是“results in GEO DataSets”，另一个是“results in GEO Profiles”，我们选择上面一个（绿框所示）。

Step2：过滤

点击上面的检索结果后，然后我们会进入到GEO DataSets的结果页面，如下图所示。在这里面有3万多个条目匹配到我们输入的关键词“Hepatocellular carcinoma”，但是这么多条目我不可能一个个看过来啊，该怎么办呢？

我们注意到，在结果页面中的左边栏和右边栏有可供筛选的筛选条件。这些筛选条件可以帮我们快速过滤掉无用信息，并准确地指向我们需要的数据集。那么有哪些是我们常用的筛选条件呢？

Entry type：即检索出来的结果类型，包括DataSet、Series、Sample、Paltform等，这里我们选择Series。（不知道这几个名词概念的，自行查阅上一篇文章：GEO数据库挖掘（1）--SCI文章速成）

Study type：研究类型，也即数据类型，这里面内容就非常多了，因为我们做的事表达谱，所以常用的一般就是“Expression profiling by array“或者“Non-coding RNA profiling by array”。点击下方的”Customize”可以查看更多数据类型。

Attribue name：其实就是样本来源，或者样本类型，这里我一般都是选择“tissue”。

Organism: 在右侧边栏中可以选择物种，这里我们根据自己的研究目的自行筛选，我这里就选择“Homo sapiens”。

选定好筛选条件之后，可以发现，原先的结果从3万多条变成了240条，这里面基本就是我们想要的结果了。那么问题又来了，在这240个里面，怎么知道到底哪个才是我最终需要的呢？或者我们在写文章的时候如何选定最为重要的数据集呢？最好的办法只有：点击详情，逐个查看。

可能有人会觉得这个方法太笨。其实不然。因为我们做的是数据挖掘的文章，这里面的“数据”就是我们的研究对象，如果不能选定足够大的样本量，我们在分析数据的过程中就会漏掉一些重要的信息，或者editor直接就会觉得你的文章意义不大。那为了避免漏掉数据集的情况发生，当数据检索进行到这一步的时候，后续我一般都会逐个去查看每个数据集的详情，并判断是否符合我的研究目的。

Step3：挑选

点击打开每个data series的详情，我们以检索条目中的第5条为例（因为这个数据集的数据较多，共有198个样本），如下图所示，点击进入到该研究的详细介绍页面。

在详情页面中，有几个需要我们注意的地方：

数据集编号，在右上角有显示（红框），这个编号很重要，我们写文章的时候一般在Methods & Material中会提及。

数据集介绍，如下图红框所示，这个里面包含了关于数据集的详细介绍及实验设计思路，读了这两段之后我们就知道这个数据集是不是我们想要的了。

检测平台，即Platform号码，一般是GPLxxxx的格式，这个里面包含了检测平台的基因注释信息，也很重要。

样本信息，在Samples（红框所示）中会显示样本总量及每个样本的编号，默认是折叠起来的，点击“More”可以显示完整。同时，如果要查看每个样本的详细临床信息，点击样本的GSMxxxx编号即可。

此外，还有一个需要我们知道的就是一个分析工具—GEO2R，这个工具是GEO官方开发的使用R语言来进行差异表达分析的工具，十分好用，通过GEO2R可以快速便捷地筛选出我们想要的差异表达基因。

当然仅仅进行差异表达分析，发文章是远远不够的，后面的文章，我们会继续给大家讲解GEO2R的使用以及我们自行开发的一整套GEO数据挖掘自动化工具，卖个关子，敬请期待哟~

本期重点回顾（Take home message）：

如何在GEO中检索并筛选目标数据集，以及数据集中需要注意的关键信息。

GEO数据库挖掘（2）--快速锁定目标数据

GEO数据库挖掘（2）--快速锁定目标数据

相关阅读更多精彩内容

友情链接更多精彩内容