现在感觉统计学真粗糙,不过我还是认为她是令人陶醉的
1、方差n-1的问题
这是个困扰了我很久的问题!
然而貌似今日我理解了她的思想。推导过程没必要细看,计算能力来说计算机是无敌的,人比计算机强的地方是思想。我只要知道它被推导出来且正确就可以了。
方差这一概念,是离均差平方和除以例数,但有时我们可能会看到,有的书中介绍方差的公式,分母并不是例数n, 而是n-I 。这实际上是总体与样本的区别,总体方差的计算,其分母是n; 而样本方差的计算,其分母是n-1。
为什么样本方差要把分母设为n-1? 因为样本相对于总体而言,肯定是有一定偏差的,而在实际中通常很难得到总体数据。
所以,在求方差的时候,实际上得到的是样本方差,但我们要估计的是总体方差啊?
前辈的指点:
在用样本数据估计总体方差的时候,前人已经证明了,如果仍以n为分母,那么得到的不是总体方差的无偏估计;而以n-1为分母,得到的才是总体方差的无偏估计,所以我们才以n- 1 作为分母。
这一证明过程我们没有必要去了解,纯粹是数学公式。
2、啥是自由度?
这里所说的n-1 就是自由度(Degree of Freedom) 的概念。在统计学中,几乎所有方法、所有指标都会涉及自由度,因为它跟例数有关,而任何统计方法都不能撇开例数这一关键因素。
自由度的字面意思是,计算样本统计矗时能够自由取值的数值的个数, 一般用df来表示。举一个直观的例子,如果有一个方程为x+y+z=100,一旦y和z的值确定下来,那么x的值也就固定了,必然等于100-y-z 。所以, x 、y 、z 是不能同时自由取值的,能够自由取值的个数只有2个,而不是3个,也就是说,自由度是2。
为什么样本的自由度就变成了n-1呢?因为在用样本估计量估计总体参数时,我们有一个暗含的假定:
假定统计量是参数的无偏估计,也就是二者应该相等。(无偏估计???)
这相当于我们已经做了一个限定(就像x+y+z=100一样,已经限定了三者之和为100)
因此,样本的自由度就不是n,而是n-1。
3、统计方法的自由度
<1>在不同的统计方法中,自由度都不一样,但基本原则都是每估计1个参数,就需要消耗1个自由度。
在单样本t检验中,自由度是n-1 。因为只需要估计1个参数(均数),所以只需要消耗1个自由度,所以自由度是n-1。
<2>在两组比较的t检验中,自由度是n1+n2-2 。因为需要估计的参数有2个,也就是两组的均数。对于第一组而言, 一旦均数固定,能够自由取值的个数只有n1 -1个(n1 是第一组的例数),即自由度为n1-1; 同样的道理,对于第二组而言,其自由度为n2-1。所以总的自由度就是n1-1+n2-1=n1+n2-2。
<3>在多组比较的方差分析中,当有K个组的时候,需要估计k个组的均数,所以总的自由度是(n1+n2+ … +nk)-k。而对于组间变异所用到的自由度,因为总均数是固定的,所以需要减去1个自由度,也就是k-1。
<4>在回归分析中,如果有m个自变量,就有m个参数需要估计,而且还需要估计截距项,因此待估计的参数有m+1个(m个自变量加1个截距项),所以模型的F检验用到的自由度是n-(m+1)。它意味着只剩下n-(m+1)个可以自由取值的数值用来估计模型误差,当自变量数m固定时,如果样本量n比较小,就会导致有效估计例数不足,从而导致结果不可靠。