统计显著性,是针对某种比较来说的。要比较,就要有个标准。在一个统计研究里,“零假设”(Ho,读作H null)就是当下的参考标准。统计上的结论或假设总是倾向于保守,有点像惯性定律,除非你有足够的影响力显著改变了什么,否则我们不会轻易改变当前已有的结论——当然这个结论也是保守、合理、并有一定共识的。
当将你的检验结果与“零假设”比较时,会出现四种情况:
2x2表 | “零假设”是对的 | “零假设”是错的 |
---|---|---|
接受“零假设” | 接受对的(这没毛病,概率为 1-Alpha) | 接受错的(Type II Error,Beta Error) |
拒绝“零假设” | 拒绝对的(Type I Error,Alpha Error) | 拒绝错的(这也没毛病,概率为 1-Beta) |
其中Alpha,就是当“零假设”是对的,你却拒绝了它,的概率,我们称它为“显著水平”(Significance Level)。比如若将Alpha设定为0.05,那么就是允许你的检验有5%的概率拒绝接受一个已知的正确的结论。顺便提一句,拒绝错误的零假设的概率(1-Beta),就是所谓的“统计功效”(Statistical Power),已在另一篇文章里有详细 解释。
而当我们说 p 值(p-value, p要小写),就是指在假设“零假设”是对的时,我们能从实际样本中找到符合“零假设”的样本概率。比如,
“零假设”是:自发布起一天内,简书文章被阅读数与作者间的互粉数(互捧)无关:或说在发布一天内,“文章点击数”除以“互粉数+1”这个比值是随机正态分布;而
“备择假设”是:简书文章需要作者互粉(互捧),自身文章被阅读数才会显著增加。
(小注释:
1. 这个假设中所选的保守假设,因为笔者还不深度了解当前阅读网站的规律玩法,只选用书籍文章以纸传播时代的经验:只有名著、好文章才会被大量传播阅读,跟作者与他人互动无关。
2. 我们收集简书每个作者“文章点击数”除以“互粉数+1”这个比值,是考虑到互粉数可以是0,而分母不能为0;(另注意,此处计算的不是概率,只是个比值)
3 看这个比值是不是近似正态分布,是因为笔者认为如果互粉和文章点击数无相关,比值极高值和极低值应该都是少数,大部分都是徘徊在某个区间,类似于随机正态分布。
那么这里的p值,就是假设“零假设”是对的——文章点击数不需要作者互粉来提高——时,在我所收集的数据中,能找到满足“零假设”的最小概率:比如只找到4%的文章满足了其‘点击数’与‘互粉数’的比值,遵循(均值为u,标准差为sd的)随机正态分布的情况。(u和sd是能描述正态分布的属性参数,这俩数定了,正态分布图形就定了,可以用于比较了)
如果懂了如上解释,你会明白为何p值与alpha值是两回事,却又常常混谈——它俩都是概率,都用来描述差异显著性,但一个是样本中找到符合“零假设”的概率(p值,是实际样本中发现的概率);另一个是拒绝正确“零假设”的概率(alpha值,是设定的一个标准)。
而当这个概率(p值,比如4%),小于Alpha(比如设为0.05),即 p<alpha,则意味着,即便“零假设”是对的,我能在样本中找到满足“零假设”的概率,比我根据所设的显著水平而拒绝它的概率,都小——也就是说我费心费力找到了满足“零假设”的例子,但根据我设定的显著水平,这些例子都得被随机拍一巴掌检验一下,结果就把所有找到的正确例子都给拍没了——那还废那事干嘛?直接拒绝“零假设”得了!
——所以研究员的必做,统计检验,都爱:经假设检验,p<alpha,拒绝“零假设”,新姿式与老姿势,咳咳,知识,效果有显著差异。