数据离散程度刻画的“进化史”

图片发自简书App

为什么要刻画离散程度?

现在有两个班级考试,每个班级都只有两个同学。A班的成绩是79,81。B班的成绩是60,100。你会发现平均分都是80,但班级分数的内部差异有着较大区别,离散程度就是用来刻画数据之间的差异性。

从进化的角度聊离散程度

当我们的统计工具在某些方面无法满足需要,或存在某种缺陷的时候,我们就需要对它们进行改进,我们将这一过程戏称为“进化”

图片发自简书App

(1)平均差

图片发自简书App

理解

从公式中看出,如果均值理解为数据的中心,绝对号表示距离,那么分子就可以表示数据到中心的总距离。分母是样本量,所以整个公式可以理解为样本到中心的平均绝对距离

缺陷

我们发现,平均差用绝对号度量距离,其在数学性质上是连续但不可导,这不利于在未来的建模中求极值,于是方差诞生了。

(2)样本方差

图片发自简书App

理解

从公式上看,方差解决了平均差不可导的问题,利用二次函数代替了不光滑的绝对值。但意义是差不多的,大家可以将其理解为样本到中心的平均二次距离。

缺陷

这一度量方法缺陷在于其量纲存在问题。由于使用了二次函数,其量纲(单位)就和原始样本数据不一致了,即量纲也出现了平方,不利于结果的解释,所以标准差出现了。

(3)标准差

图片发自简书App

理解

标准差实际就是对方差开根号,这样的好处就是在量纲上与原始数据保持了一致,便于解释。

例如,有一组职员收入数据,人均收入10000元,标准差为500元。这就可以被解读为谢谢职员收入与10000元的平均偏差为500元。

思考

标准差的不足之处是什么呢?


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 9,191评论 0 3
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,794评论 5 8
  • 基本概念 统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于...
    拓季阅读 11,402评论 0 6
  • 一、感恩 1.感恩父母养育,一直以来对我们的支持,及帮助带孩子。 2.感恩同事单独制作催化剂样品 3.感恩同事为装...
    807C2阅读 191评论 0 0
  • #写作100天计划之#Loser 自传 拒绝了拿到手的offer,重新进入找工作,投简历的焦虑期。花了一晚上更新了...
    大胡hu阅读 180评论 0 0

友情链接更多精彩内容