
图片发自简书App
为什么要刻画离散程度?
现在有两个班级考试,每个班级都只有两个同学。A班的成绩是79,81。B班的成绩是60,100。你会发现平均分都是80,但班级分数的内部差异有着较大区别,离散程度就是用来刻画数据之间的差异性。
从进化的角度聊离散程度
当我们的统计工具在某些方面无法满足需要,或存在某种缺陷的时候,我们就需要对它们进行改进,我们将这一过程戏称为“进化”。

图片发自简书App
(1)平均差

图片发自简书App
理解
从公式中看出,如果均值理解为数据的中心,绝对号表示距离,那么分子就可以表示数据到中心的总距离。分母是样本量,所以整个公式可以理解为样本到中心的平均绝对距离。
缺陷
我们发现,平均差用绝对号度量距离,其在数学性质上是连续但不可导,这不利于在未来的建模中求极值,于是方差诞生了。
(2)样本方差

图片发自简书App
理解
从公式上看,方差解决了平均差不可导的问题,利用二次函数代替了不光滑的绝对值。但意义是差不多的,大家可以将其理解为样本到中心的平均二次距离。
缺陷
这一度量方法缺陷在于其量纲存在问题。由于使用了二次函数,其量纲(单位)就和原始样本数据不一致了,即量纲也出现了平方,不利于结果的解释,所以标准差出现了。
(3)标准差

图片发自简书App
理解
标准差实际就是对方差开根号,这样的好处就是在量纲上与原始数据保持了一致,便于解释。
例如,有一组职员收入数据,人均收入10000元,标准差为500元。这就可以被解读为谢谢职员收入与10000元的平均偏差为500元。
思考
标准差的不足之处是什么呢?