GEO数据挖掘之第一步：数据预处理与差异分析

作为一个刚接触生物信息这个专业小白，我正在努力学习着最基础的东西，最先是了解GEO数据库，自己利用数据进行分析，还好之前有R语言基础，这第一步就花了很长时间，但是完成后是很有成就感的，希望我在自己摸索的道路上越走越顺，接下来就是记录我学习心路。(可能有很多错误，欢迎各位老师指正)

首先是浏览GEO数据库，这个庞大的数据库看的我是真的晕，学好英文真的是很重要啊，不过不能急，慢慢来，一点一点去看，先下载几个数据看看，我一般是以白血病(leukemia)为例

GDS GSE GPL GSM

这四个东西我之前是分不清的，后来在强大的网络帮助下，我成功弄明白了，GSM是单个样本的实验数据，GDS是人工整理好的关于某个话题的GSM的集合，一个GDS中的GSM的平台是一样的，GSE是一个实验项目中的多个芯片实验，可能使用多个平台，GPL是芯片的平台，如Affymetrix， Aglent等。

好啦，接下来是下载数据了，以GSE13822为例，下载它的数据系列文件GSE_series_matrix,文件里面！号开头的是一些实验描述内容，一般包括标题，样本信息，实验平台，研究者，发布时间等等信息，处理数据前之前需要认真看这些内容。弄清楚样本数量，以及实验组和对照组的样本编号。

GSE_series_matrix头文件

数据从这里开始

ID_REF行为探针名，列为样本，整个矩阵就是对应的表达值

接下来是平台文件，这个实验的平台是在GPL570，所以一下是平台文件信息，#号开头的是对平台的描述

数据从ID那一行开始

这个文件我们在探针注释要用到，到时候具体要用的就是用绿色标出来的三列

接下来就是核心的内容了，就是数据预处理，这一步主要就是把数据进行一定的处理，然后筛选出差异基因，为后面的研究做准备，这里我用的工具是R语言

第一步，先提取数据，把我们需要的矩阵读入，从ID_REF开始

第二步，对数化，把数据从偏态分布转化成正态分布

第三步，探针过滤，去除表达值为负或者很小的数据(噪声数据)

第四步，补缺失值

第五步，数据标准化(核心)

第六步，探针注释

第七步，基因筛选

最后筛选出差异基因后，做了热图和火山图（具体代码和分析在后面那篇文章）

这个过程挺曲折的，我一直奔走在各大生物信息贴吧和学习视频里，最后终于完成了，我知道这仅仅是个开始，对我来说这个开始还挺好的。最后希望所有生信人都能大有作为吧，加油吧！

最后编辑于：2022.05.27 13:04:51

禁止转载，如需转载请通过简信或评论联系作者。