数据挖掘20210114学习笔记

GEO数据挖掘

图表介绍

1.热图

·输入数据是数值型矩阵\数据框
·颜色的变化表示熟知的大小

2.散点图和箱线图

箱线图:输入数据是一个数值型向量和一个字符串向量(重复值)
箱线图是单个基因在两组之间的表达量差异

3.火山图

Foldchange(FC):处理组平均值/对照组平均值
logFoldchange(logFC):Foldchange取log2
logFC>0,treat>control,基因表达量上升;
logFC<0,treat<control,基因表达量下降。
通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
P值越小,越有统计学差异,-log10(Pvalue)越大

4.主成分分析

主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

GEO背景知识

表达数据实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
GSM:用户提交给GEO的样本数据
GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
GPL:用户测序使用的芯片/平台。

基因表达芯片

探针的表达量反应基因的表达量

图片.png

limma包用于表达芯片数据差异分析
转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2
探针注释来源:
1.Biocoductor的注释包
2.GPL的soft文件解析
3.官网下载对应产品的注释表格
4.自主注释

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容