11高通量测序-热图

热图

这是热图,行是gene,列是RNA-seq样本。这个数据已经通过两种方式进行了修饰,因此我们可以从中获得一些见解。

  • 相对丰度(relative abundances)已经被缩放(scaled)。这是在每个基因的基础上进行的(其他热图一次缩放所有的基因)。这很容易看出样本X比样本z含有更多/更少的Y基因。举个例子,很容易看出样本1比其他样本表达量更高。然而,这种特定的缩放意味着我们不能跨基因进行比较。样本1中的暗红色条并不意味着样本1中Y基因比其他基因更容易转录,只是比其他样本表达量高。
image-20210104161624924.png

将行/基因按相似性进行分组。这些基因在样本2中转录最多(在样本4中转录最少)。这些基因在样本1中转录最多(在样本4中最少)。这些基因在样本2中转录最多(在样本3中转录最少)。“聚类”不是偶然的,而是由于一个计算机程序试图把“相似的”东西放在一起。

image-20210104162019309.png

没有聚类数据会像这样,数据看起来混乱很难去解释。

image-20210104162314862.png

没有聚类和缩放,将会变成这样,注意到一个基因是高转录的,它是异常值,以至于无法看到其他基因的表达。

image-20210104163729015.png
  • 这个热图已经被缩放和聚类。缩放是“全局”的——不是每行/基因 而是对于 所有行 /基因。我们可以使用“全局”缩放,因为我们没有异常值。聚类是根据列/样本和行/基因进行的。按列聚类可以表明这些样本的表达是相似的,按行聚类可以表明这些基因的表达是相似的。没有聚类和缩放看上去是混乱的。
image-20210104163252382.png

如果我们在第一个热图中使用全局缩放会怎样?

这一异常值极大地扭曲了缩放,以至于不能看到其他基因。同时,注意到聚类的变化和基因有一个新的顺序。缩放可以影响两件事:

  • 基因的颜色有多鲜艳,你是否可以比较它们

  • 聚类

image-20210104163946581.png

怎样缩放

Z值缩放法
  • 无论你是通过基因还是全局,最常见的方法是"Z-Score- Scaling"(Z值缩放法),因为从技术上讲,它会把数据转换成“Z-Score”(z值)

6个样本的RNA-seq的read,

  1. 计算平均数(16.5)
image-20210104164824159.png
  1. 每个值减去平均数
image-20210104164921659.png
  1. 计算标准差(6.28)

  2. 除以标准偏差(注意,轴上的刻度发生了变化)

    • 数据过去从-8到+8。现在是-1.2到1.2之间
image-20210104170136679.png

Z值缩放公式

image-20210104170337797.png

不管原始数据的变化如何,除以标准偏差就可以确保数据范围得到缩小。为什么我们要缩小数据的范围,因为我们只能辨别有限颜色的深浅。范围越大,色度的差异就越微妙。通过对数据进行缩放,我们使用的色度更少,更容易看到:“样本1比样本2有更多的转录……”

如果有一个异常值,那个标准差将会变非常大,也就是Z值的分母变大,接近于零的值会被压缩到很多,用几个色度很难将它们分开。

image-20210104190441616.png

当我们使用异常值对数据集进行“全局缩放”时,我们看到其中一个基因明显高度表达,但我们看不出其他基因有什么不同。

image-20210104190600707.png

怎样聚类

聚类主要有两种类型:

  • 层次(hierarchical)

  • K-means

层次聚类(hierarchical clustering)

  • 见10聚类笔记

总结

  • 缩放数据(either per gene,per sample, or globally)

  • 聚类数据(either by gene,or sample, or both gene and sample)聚类数据

    • 层次聚类

    • K-means

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容