数据挖掘0311

所有资料来源于生信技能树

  • 图表

image.png

#1. 热图

image.png

上调基因和下调基因是针对处理组而言。
下调基因-处理组比对照组表达量低的基因

2.散点图和箱线图

散点图和箱线图

散点图——强调个体之间的关系
箱线图——强化组与组之间的关系

image.png
理解箱线图的离群值

箱线图越短说明数据越集中
越长说明数据越离散

箱线图和点图适用于差异基因少的情况下使用。

3.火山图

image.png
FC和logFC

image.png

logFC是以2为底数,


image.png

logFC一般取1,1.2,1.5,1.75

4.主成分分析

image.png

image.png

点点代表样本,
点和点的距离代表两个样本的差异大小
大的点代表分组在坐标系中的中心位置,不代表样本
坐标系中dim和括号中的数据没有意义,不代表啥

典型PCA

左上图:组间差别大于组内差别。(为什么?)
左下图:
右侧图:组间差别小于组内差别
生信技能树公众号上“一文看懂主成分分析”

还是有点懵~~~~~~~

  • GEO背景知识+表达芯片分析思路

1.表达数据的实验设计

image.png

2.数据库介绍

GEO

GEO组织层次
GSM/GSE/GPL
image.png
基因表达芯片

探针是一组短的核苷酸序列,能与目的基因的一段序列杂交。

3.表达矩阵

表达矩阵的行名就是探针ID
列名是样本编号

image.png

要做的工作时把探针ID转换为Gene Symbol
把GSM样本分组
image.png

3.差异分析

image.png
image.png

探针注释
自主注释
差异分析的可视化

差异分析的可视化就是火山图和热图

数据挖掘的本质就是缩小基因的范围~Jimmy
谁能从你邋遢的外表看到你美丽的内心呢?~花花
有本书叫《JYXPXXX》,经我坚定没啥用。
数量太少,你引用个毛线球?

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容