GEO起先只是为表达芯片数据准备的,后期纳入了各种NGS组学数据,文章里面会给出数据地址,GSE ID号,由此我们就可以进入GEO数据库。
GEO数据库介绍
GEO Platform (GPL) 芯片平台,下载的是芯片设计的信息annotation files
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号,下载的是soft文件
GEO Dataset (GDS) 数据集的ID号 ,下载_series_matrix.txt.gz
准备知识
图表
1.热图
输入数据是数值型矩阵/数据框
2.箱线图
输入数据是一个数值型向量和一个字符串向量(有重复值)
用途:单个基因在两组之间的表达量差异
名词解释
Foldchange(FC):处理组平均值/对照组平均值
logFoldchange(logFC):Foldchange取log2
GSE:文章中作者使用的数据编号开头
GPL:某公司开发的芯片产品编号开头
GSM:表达矩阵的行名是探针名,列名是样本名,列名的编号开头是GSM