故事背景是这样的:话说有一天在看通信工程师必学的一些算法(恩,说的很牛逼哄哄的),突然看到方差计算式是
这个时候上百度找谷歌是少不了的,但是除了一堆没见过的数学名词和公式外,还是没有答案.(还有一个老教师,他也纠结这公式怎么交代给学生).
故事转择点这样的:一不小心看了<<深入浅出统计学>>(强烈推荐下 ,深入浅出系列,英文名 head first ).答案就是一个字:简单!!
首先
说下概率学中的方差计算,就是刚才那个公式,但是除的n(当然均值符号也是有点不同的).
然后
统计学中的方差计算,这里面有两种方差,总体方差和样本方差. (大家都是文明人,总体和样本的概念就不多说了)
总体方差的计算公式是什么呢?跟概率学中方差的计算是一样的。
样本方差的计算公式是什么呢?ok,就是故事开头的那个坑爹公式了。
之后
说明下方差这玩意的意义,就是用来度量一组数据的分布情况.方差越小,数据越一致.(如果概念不熟,网上搜搜)
最后
一张直接说明问题的图:
可以把方差认为上图中两条曲线的x轴宽度,越宽的话,数据越分散
原因就是这样的:我们想要获取总体的方差,通常要用样本的方差来做替代,但是从方差这货的性质上来说呢,样本计算出的方差很有可能是偏小的(我也是出于数学严谨性这样说的,真实想法是把"很有可能"去掉 ),所以搞统计学那帮欧巴们,就用n-1来弥补下,专业点就是校正了.至于为什么是n-1,不是-2,-3等等.有几种可能:
1.实践中检验出来的
2.有数学证明,网上是有一大堆公式,可惜数学没学好,看不懂.感觉 这货应该是人为设的.