描述性统计(上篇)——概念参考

集中趋势(central tendency):算数平均数、中位数、众数

 如果需要使用平均数,聚合时排除离群值(outlier)是必须的

离散趋势(dispersion tendency):方差、标准差、极差

  • 总体方差:
    业务上很少用总体方差和离中趋势。主要原因可能是,central tendency直接反映业务指标的好坏;但离中趋势可能无法让业务同学直接参考。比如,交易金额方差很大,可能很多用户的交易金额很低,甚至为0。但是,应该把精力放在培养用户从0到1上,还是从1到10上呢?方差本身并不能回答这个问题。
  • 极差:数据集合中最大值和最小值的差值
  • 平均偏差:标准差的“乞丐版”,每个数与平均数偏差绝对值,求均值
  • 变异系数(离散系数):如果两个数据集合的标准差和方差相等,这个时候哪个数据集合的离散程度更大呢?
    变异系数=标准差/均值
  • 四分位极差:可以理解为极差的细化版本,主要为了克服两侧极端值影响
  • 异众比率:总体中非众数次数与总体全部次数之比

分布的形状

  • 引子:一个正态分布是单峰分布,那单峰分布是正态分布吗?
  • 峰度系数:描述单峰分布曲线的峰度高低和陡峭程度
    峰度越大:可能分布肥尾的现象越明显,或者尾部的极端值过于极端(这里的一个推测是,如果一个单峰曲线的方差和正态分布相等,峰度较高说明有很多数集中在中间,此时,如需得到相同的方差,必然需要两侧的离群值贡献的方差足够大)
    Jensen不等式:峰度的取值不小于1,不高于数据的个数
    典型分布峰度:正态分布为3,均匀分布为1.8
  • 偏度系数:描述数据集合的分布形态是否对称
    其中,左偏分布,长尾在左
    偏度:主要由离群值(outlier)导致的,离群值在正数中特别大的时候,分布是右偏的。
    中位数、平均数、众数:不管左偏右偏分布,中位数永远在三者的中间

拓展:如何用偏度和峰度衡量一个社区的健康程度?待进一步完善

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 1,830评论 0 6
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,552评论 5 8
  • 统计学包括描述性统计和推论统计。 描述性统计的含义——"A descriptive statistic is a ...
    饼人阅读 5,563评论 0 3
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,697评论 -1 5
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,237评论 0 0