在浅探富集分析中的超几何分布中我们谈到了通过p值大小来确定富集到的基因的显著性,但是p值终归是人定的,我们不能说定下p值以后小于p值得结果就都是正确的,这里p值小只是代表假阳性概率小,但并非真的就一定是对的。p=0.05意味着我们检验1次犯错的概率为5%;但是倘若我们检验次数多达10000次,那么犯错的概率将多达500多次。这里虽然犯错的概率没变(5%),但是随着检验次数的增多,我们犯错的次数也实实在在的增多了。因此就需要多重检验校正来减低假阳性的次数。
1、多重检验校正方法
1.1 Bonferroni校正
Bonferroni是最简单严厉的方法,他直接将阈值降到极低来减少假阳性率。例如:同为检验10000次,阈值为5%时犯错次数依然会有多达500次;然而,当我们把阈值提高到5%/10000时,即便检验10000次,犯错次数依然不到一次。
Bonferroni校正阈值的公式为:p*(1/n),p为普通的阈值,n为检验次数。
虽然,降低阈值能非常直接的减低假阳性概率,但同时也过于严厉,极有可能将真正的阳性结果,也即我们想要的结果也给筛掉了。
1.2 FDR (False Discovery Rate)校正
FDR(False Discovery Rate)用比较温柔的方法调整,试图在假阳性和假阳性间达到平衡(即,不是不让假阳性出现,只是将假/真阳性比例控制在一定范围内)。
FDR的目标是试图得到一个校正后的阈值,来实现:在发现的差异结果中,假阳性控制在极低比例;例如,检验10000次,无论我们得到多少差异基因,能不能保证其中定性为差异基因结果中,错误率在5%以内。如果找到差异基因100个,我能做到拍着胸脯说:“假的差异基因不多于5个”。这就叫FDR< 5%。
有多种模型用来从p-value估算FDR值,其中使用的最多的是Benjaminiand Hochberg的方法,简称 BH法。BH法虽然不够精确,但是简单好用。
BH 方法的公式为:p*(m/k),其中的p为普通的p-value,m为检验次数,k为此次检验的p-value在所有检验次数中的排名。例如,检验了100次(m),则排名为10的Q-value 则为0.03(100/10)=0.3,代表在这前十次检验中假的差异基因不多于10*0.3个。
FDR常见的阈值为0.1%,1%,5%等,也可设置宽松达25%,表示差异基因结果中有25%是假的。
BH法只是对FDR的预估,并非准确,而且依然过于严格(阈值依然卡的太严,假阴性太高)。最有名且精确度更高的是Storey方法。
2、FDR,Q value,adjust p value
p-value:衡量一次检验假阳性率的指标(False positive rate) ;
q value:衡量错误发现率的指标(False discovery rate,简称FDR,所有检验中假阳性的概率)。即使用Q value的这个参 数预估FDR。Q value 需要利用公式从p value 校正计算后得到,所以Q value 通常又被称为adjusted p value。所以一般情况下:我们可以认为Q value = FDR = adjusted p value,即三者是一个东西,虽然有些定义上的细微区别,但是问题也不大。