GEO数据挖掘
图表介绍
1.热图
·输入数据是数值型矩阵\数据框
·颜色的变化表示熟知的大小
2.散点图和箱线图
箱线图:输入数据是一个数值型向量和一个字符串向量(重复值)
箱线图是单个基因在两组之间的表达量差异
3.火山图
Foldchange(FC):处理组平均值/对照组平均值
logFoldchange(logFC):Foldchange取log2
logFC>0,treat>control,基因表达量上升;
logFC<0,treat<control,基因表达量下降。
通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
P值越小,越有统计学差异,-log10(Pvalue)越大
4.主成分分析
主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。
GEO背景知识
表达数据实验设计
实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
GSM:用户提交给GEO的样本数据
GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
GPL:用户测序使用的芯片/平台。
基因表达芯片
探针的表达量反应基因的表达量
limma包用于表达芯片数据差异分析
转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2
探针注释来源:
1.Biocoductor的注释包
2.GPL的soft文件解析
3.官网下载对应产品的注释表格
4.自主注释