作为一个刚接触生物信息这个专业小白,我正在努力学习着最基础的东西,最先是了解GEO数据库,自己利用数据进行分析,还好之前有R语言基础,这第一步就花了很长时间,但是完成后是很有成就感的,希望我在自己摸索的道路上越走越顺,接下来就是记录我学习心路。(可能有很多错误,欢迎各位老师指正)
首先是浏览GEO数据库,这个庞大的数据库看的我是真的晕,学好英文真的是很重要啊,不过不能急,慢慢来,一点一点去看,先下载几个数据看看,我一般是以白血病(leukemia)为例
GDS GSE GPL GSM
这四个东西我之前是分不清的,后来在强大的网络帮助下,我成功弄明白了,GSM是单个样本的实验数据,GDS是人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的,GSE是一个实验项目中的多个芯片实验,可能使用多个平台,GPL是芯片的平台,如Affymetrix, Aglent等。
好啦,接下来是下载数据了,以GSE13822为例,下载它的数据系列文件GSE_series_matrix,文件里面!号开头的是一些实验描述内容,一般包括标题,样本信息,实验平台,研究者,发布时间等等信息,处理数据前之前需要认真看这些内容。弄清楚样本数量,以及实验组和对照组的样本编号。
ID_REF行为探针名,列为样本,整个矩阵就是对应的表达值
接下来是平台文件,这个实验的平台是在GPL570,所以一下是平台文件信息,#号开头的是对平台的描述
数据从ID那一行开始
这个文件我们在探针注释要用到,到时候具体要用的就是用绿色标出来的三列
接下来就是核心的内容了,就是数据预处理,这一步主要就是把数据进行一定的处理,然后筛选出差异基因,为后面的研究做准备,这里我用的工具是R语言
第一步,先提取数据,把我们需要的矩阵读入,从ID_REF开始
第二步,对数化,把数据从偏态分布转化成正态分布
第三步,探针过滤,去除表达值为负或者很小的数据(噪声数据)
第四步,补缺失值
第五步,数据标准化(核心)
第六步,探针注释
第七步,基因筛选
最后筛选出差异基因后,做了热图和火山图(具体代码和分析在后面那篇文章)
这个过程挺曲折的,我一直奔走在各大生物信息贴吧和学习视频里,最后终于完成了,我知道这仅仅是个开始,对我来说这个开始还挺好的。最后希望所有生信人都能大有作为吧,加油吧!