本文图片引用自生信技能树,小洁老师的课件,关注微信公众号:生信技能树、生信星球
热图heatmaps
什么是热图
本质上它是用颜色直观的表现一个数值矩阵,图上每一个小方格都是一个数值,按一条预设好的色彩变化尺(称为色键,Color Key),来给每个数值分配颜色,虽然看起来眼花,但道理却很简单。使用时,不必局限于基因鉴别上下调,所有实验涉及矩阵数据表达都可以用热图可视化表达
热图的输入数据必须是数值型数据框或者矩阵,颜色的变化显示数值的大小
当我有一个二维矩阵,例如:
这是一个TCGA肺腺癌的基因表达谱(logCPM,前5个基因、5个样本)。我想以直观的方式观察这个二维矩阵,怎么办?
这个时候就要用到热图了。这个矩阵的热图(前50个基因、50个样本):
每1个格子代表横轴样本名与纵轴基因对应的数值,颜色显示按照图右边的色键标准显示。
图中直接看很难看出什么信息,能不能对行和列进行排序,把相似的排到一起 这样不就能直观地反应信息了吗?当然排序的方法有很多,你可以自己排,也可以使用聚类的方法。所谓聚类的方法 就是对行列(可以都聚类,也可以只对行聚类,或者只对列聚类)进行聚类,把聚到同一类的放到一起。 图二 就是对 样本和基因都进行了层次聚类,距离较近的放到一起。聚类只是改变了数值的位置,对应的样本和基因位置也随着数值改变,相当于根据数据大小把矩阵中的排列顺序改变
可以只对基因进行聚类,也可以只对样本聚类,但是注意样本聚类后干预组和对照组的样本可能会互相夹杂,简单来说聚类决定了每个样本的位置,而不是分组决定了每个样本的位置
散点图和箱线图
散点图就是横纵坐标的对应数值,可以根据类型区分颜色,iris中1列为例
箱线图弱化横坐标,强化分组
输入数据是1个数值型向量和1个有重复值且不能太多的字符串向量
箱线图中图像的意义箱子内包含50%的数据,中间黑线表示数值的中位数,箱子越扁,说明组内差异越小,箱子越大,说明组内差异越大。还可以在组见加P值对比
图片引用自生信技能树,小洁老师的课件关注微信生信技能树、生信星球
火山图
用来显示limma差异分析的结果
logFC
Foldchange(FC):处理组平均值/对照组平均值
logFoldchange(logFC):FC取log2
非常羞耻的复习下初中数学
logFC的意义就是,处理组比对照组表达差别2的logFC倍,所以logFC一般为个位数。,logFC>0,表明处理组基因比对照组表达多,<0,表明处理组比对照组表达少
logFC为火山图的横坐标,绝对值决定差异基因的数量,取阈值一般为±0.585 、1、1.5、1.75、2
什么是P值?
https://zhuanlan.zhihu.com/p/74698448
简单来说,对于基因表达来说,
我们做一个假定:处理组一个基因的表达与对照组相同
P=1时,无论测了几组样本都100%相同,差异性为0.
P=0.5时,有50%的可能表达不同,差异性一般般。
P=0.05时,有95%的可能表达不同,差异性很大。
P<0.01时,有大于99%的可能表达不同,差异性显著!
-log10(Pvalue)为火山图的纵坐标,意义如上图。一般P<0.01,-log10(0.01)=2,一般取>2为显著差异
主成分分析PCA
简单的了解内容
主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
举个例子:iris数据集里,每1列代表一个指标,4列就是4个指标,如果不进行降维分析的化,我们得到的图,就如下图所示,可以看出a与bc,差异性大,bc有一定的交集。我们可以想象,如果有10000列,那么将很难分辨组间的相关性。
主成分分析就是将上图中4个指标,降维成2个主成分,如何转换我们以后进一步学习,这样就将线变成了点,如下图所示