(109条消息) p-value,p-adjust,q-value三者的定义与使用_小C_先生的博客-CSDN博客_adjust p value
(109条消息) p-value,q-value,FDR_hyena_7的博客-CSDN博客_pvalue和qvalue区别
假阴性错误(false-negative errors): 高水平的基因可能偶尔没有检测到
假阳性错误(false-positive errors): 低水平表达的基因由于扩增偏差,可能显得过于丰富,导致假阳性错误
错误发现率(False Discovery Rate,FDR):事先犯I-型错误的最大概率,控制FDR值来决定p值的值域,FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡,将假/真阳性比例控制到一定范围之内
p-value
概率,反应某一事件发生的可能性大小。
统计学根据显著性检验方法得到的P值,通常以P<0.05为显著,P<0.01为极显著,其含义为:
抽样误差导致的样本间的差异的概率小于0.05或0.01。
根据定义,P值可简单理解为判断结果的“出错率
(即假阳性比率,假阳性:不是样本本身有差异,是其他原因(比如抽样)导致的检测结果有差异)”。
p-adjust
有时候我们会在样本中发现许多0值,然后少量其它值,这种情况就会对p-value的可靠性造成影响,往往这种情况p-value会很显著,但很明显这样不符合现实。这种时候我们就需要对p-value进行校正,校正的流程这里不细说了,我们可以简单理解为,p-adjust是用来判断p-value是否可信的一个参数,它来自于p-value,但是相对于p-value可信度更高。这样我们就可以知道,在同时有p-value和p-adjust时,我们应该选择p-adjust用来作为显著性的阈值。
q-value
q-value另有一些区别,它也来自于p-value。
q-value可以简单理解为表示p-value产生假阳性的概率,当q-value < 0.05时,p-value显著的假阳性小于0.05。
q值(q-value)是p值校正后的结果。
可定义为:多重假设检验过程中,错误拒绝(拒绝真的原假设(零假设))的个数占所有拒绝的原假设个数的比例的期望值(也是代表出错率)。
总结:
p-value和q-value是统计学检验变量,衡量“假阳性概率”,应用到基因检测结果中,可衡量“某个基因差异表达的假阳性概率”,代表差异显著性,小于0.05代表结果有差异。
如果p-value或q-value/越低,那么“该基因差异结果”是假阳性的概率就越低,可靠性就越高。
q-value相比于p-value更加严格,当差异基因结果较少时,可退而求其次根据p-value筛选。
当然,用q值筛选可能会过滤掉少部分真的有差异的基因,所以,q值是个双刃剑。但,相比绝大部分基因的假阳性,以及真阳性被滤掉的小概率,这部分的真阳性的丢失也不是很重要了。