1.超几何分布
超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。
需要注意的是:
(1)超几何分布的模型是不放回抽样。
(2)超几何分布中的参数是M,N,n,超几何分布记作X~H(n,M,N)。
生物学上的GO通路的富集,即差异基因显著富集的通路是基于统计学上的超几何分布的。
以cell cycle的基因为例,在GO中,如果总数为N的基因列表中中有M个基因和cell cycle相关,每次抽n个基因,其中所得和cell cycle相关基因的数量X=k,那么:
或者写作:
即得到为随机抽样n个基因是否能在cell cycle相关的基因集中富集的概率。
2.计算p-value
但是用超几何分布计算一次抽样的概率的结果不能代表整个样品的分布,所以我们要计算p值,即计算n个样品中所有小于k个属于M的概率,再用1减去这个概率和,得到p值。如果我们以p值小于0.05作为阈值,则认为p<0.05的结果为富集分析得到的显著性结果:
3.多重假设检验
拿一个通路来做检测,如果定义p-value<0.05,即取到大于等于k的几率是0.05,那就有5%的概率看到是一个假阳性。当每个通路都进行超几何分布计算时,每一次有5%的概率假阳性,当检验次数越多,假阳性的数量也会随之增加。因此我们需要用多重假设检验对计算好的P值进行校正,可以使用Bonferroni法和FDR法。
(1)Bonferroni法
Bonferroni法得到的矫正P值=P×n
Bonferroni法简单粗暴尤其当n很大时,易产生假阴性
如:如果总共检验次数为10000次,那么它会将原来的阈值0.05 乘10000倍,但是这样可能会造成假阴性,造成富集结果的缺失。
(2)FDR法(Benjamini & Hochberg法)
简称BH法。首先将各P值从小到大排序,生成顺序数
排第k的矫正P值=P×n/k
且要保证矫正后的各检验的P值大小顺序不发生变化。
欢迎关注~
参考:
https://www.jianshu.com/p/13f46bebebd4
https://zhuanlan.zhihu.com/p/50863682