相比于利用统计推断来做出合理的结论,做统计的人经常需要回答更上游的问题,例如“对于我预期的差异和置信水平,我最少需要收集多少样本?”,或者“在有限的样本和显著性水平的限制下,我能获得的最可靠的结论是什么?”。要准确回答这些问题,就需要理解和运用功效分析(power analysis)。
首先需要深刻理解几个概念:样本量(sample size),效应值(Effect Size),显著性水平(Significance level)和统计功效(Statistical Power)。
样本量不解释。
效应值是一个比较广泛的概念,在不同的统计方法中定义是不一样的,看下图:
总而言之,效应值衡量的就是组间差异的大小。
显著性水平的定义是在一次推断中做出错误结论的概率,实际使用中的取值是5%,也有比较严格的取值1%。显著性水平也称为alpha值,是犯I型错误的概率。
功效就相对难理解一些了,功效一般是针对效应值而言,也就是说在统计推断中检测出某个效应值的把握,是通过1减去II型错误的概率,可以看作是真实效应发生的概率。
“虽然研究者可以直接控制样本大小和显著性水平,但是对于功效和效应值的影响却是间接的。例如,放宽显著性水平时(换句话说,使得拒绝原假设更容易时),检验的功效便会增加。 类似地,样本量增加,功效也会增加。 通常来说,研究目标是维持一个可接受的显著性水平,尽量使用较少的样本,然后最大化统 计检验的功效。也就是说,最大化发现真实效应的几率,并最小化发现错误效应的几率,同时把 研究成本控制在合理的范围内。 四个量(样本大小、显著性水平、功效和效应值)紧密相关,给定其中任意三个量,便可推 算第四个量。”
如此我们知道了这四个基本量的定义,那么它们之间的关系是怎样的呢?看下面两张图:
从第一张图可以得知,效应值和功效是成正比的,更大的组间差异可以增强统计功效,另外组内差异(variance)越小,功效越大。
从第二张图可以得知,样本量和功效也是成正比的,但显著性水平和功效是成反比的,显著性水平要求越高,我们对结论的把握自然越低。
功效分析的具体方法和实例可以参考《R语言实战》的第10章内容,学习如何通过R包pwr来计算样本量或功效。
最后提一个概念叫做p-hacking,指的是在进行统计推断的时候,人为通过多次挑选或剔除样本使得本来不显著的p值减小到0.05以下,这是非常忌讳的行为,几乎约等于造假,然而这样的情况在学术研究中经常有意无意地出现。避免p-hacking的最好方法就是在一开始就确定好需要多少样本,这就需要做功效分析。关于p-hacking和power analysis的介绍,我墙裂推荐StatQuest教程,是一个生物统计学家Josh Stammer制作的,内容非常通俗易懂,越看越上瘾。