分位数/百分位数
举个例子,我们将某样本的基因表达量按表达量降序排列在坐标轴上:
image.png
我们取中位数,该中位数即50%分位数,表示比它大的数占总体的50%,比它小的数占总体的50%
按照这个标准,可取25%分位数,75%分位数
image.png
Q-Q图
接着上个例子,
image.png
我们做出15给基因的表达量
image.png
根据每个基因的表达情况求出相应的分位数,然后画出任意做出个正态曲线,因为有15个数据点,所以在正态曲线上可以分为16个面积相等的group,即每个group是等可能的,结合分位数的概念不难理解,每块“面积”代表含百分之多少的数据点
image.png
接下来以正态分布的横坐标为横坐标,以分位数为纵坐标,将分位数横线与正态曲线的交点画上去,
image.png
若数据符合正态分布,那么应该是拟合成一条直线
分位数标准化
标准化最大的意义是能够更正技术产生的影响,却不改变生物学重复之间的差异。
如何进行分位数标准化,假设我有三个样本,4个基因的表达情况:
-
首先计算每个样品表达量最高的基因的均值,然后将该均值画到新的坐标中
image.png - 依次计算第二高的,第三高的,第四高的........
-
对应画到新坐标上
image.png
这个过程就称为分位数标准化