平均数、中位数、众数都是衡量数据集集中趋势的,或者说用一个数表示所有数值。但是我们不知道数据集集合中的数字是接近该集中趋势还是远离该集中趋势,因此需要引入离散趋势的衡量
例如,我们有两组数据集2,2,3,3和0,0,5,5两个数据集,那么他们的平均数都是2.5,但是可以看到的是2.5与2,2,3,3接近,但是与0,0,5,5的距离却分散的很开。
也可以认为均值虽然是用来衡量集中趋势的,但并不能很好的代表所有数字,比如上面的0,0,5,5离均值2.5距离较远,那么应该如何衡量啦?这需要的衡量方式是方差
总体方差的符号是σ的平方
σ sigma 中文读西格玛
σ的平方表示总体方差
为什么要用这种奇怪的希腊字母符号啦?所有这些概念都是人为创造的,为了避免对所有数据的面熟从而创造出来的代表所有数据的概念,是为了对数据集有更好的了解。
总体方差公式
σ的平方 = Σ(xi-μ)的平方再除以N(这里是求总体的方差)
我们知道Σ是求和的意思;xi表示所有数据;μ表示总体均数;N表示全部数据。
所以上面的公式的意思是每一个数据减去总体均数平方,平方结果的所有数据相加再除以个数就得出了总体方差。
比如在引言中提到的2,2,3,3这组数据,他们的平均数时2.5。那么也就是2-2.5=-0.5、2-2.5=-0.5、3-2.5=0.5/3-2.5=0.5。0.5的平方是0.25,而0.5的平方也是0.25。最后将得出的数相加再除以4,也就是(0.25+0.22+0.25+0.25)/4=0.25。0.25就是这组数据的方差。
另一组数据0,0,5,5按照上面的方式计算的方差是6.25。