数据的描述性统计

数据描述的维度及指标

数据的集中趋势

算数平均值
加权平均值
几何平均值

有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。如生产线:

案例分析:因为该食品工厂的生产工艺是连续性生产,只有上一道工序的合格品才能进入下一道工序中,所以每道工序的合格率之间是乘积关系。因此,该生产线的产品平均合格率应用几何平均值表示。

数据的离散程度描述

极差

极差又被称为全距,是指数据集合中最大值与最小值的差值,表示
整个数据集合能够覆盖的数值距离。

平均偏差

平均偏差的数值代表了所有数值与平均值的平均偏差距离。


方差和标准差

总体方差

总体标准差

样本方差

样本标准差


抛出一个问题,如果是奥特曼和蚂蚁分别站队,这时候想看看哪一队站的整齐,就不能采用方差和标准差了,显然对于奥特曼来说是不公平的,这时可以采用变异系数指标来评价。

变异系数 也称 离散系数

方差和标准差虽然能够表示数据集合中每个数值(个案)距离算术均值的平均偏差距离,但是这个距离的大小程度却不能很好展现,特别是对于算术平均值不同的两个数据集合。变异系数实质上是标准差相对于算术平均值的大小。


总体的变异系数
样本的变异系数

四分位极差

将所有数据从小到大进行排序,如果数据集合的数值个数是奇数,那么排在最中间的数据值即为中位数;如果数值个数是偶数,那么取最中间两个数值的算术平均值作为中位数。以此类推,排在四分之一位置的数值即为第一四分位数Q1;排在四分之二位置的数值为第二四分位数Q2 ,也就是中位数;排在四分之三位置的数值为第三四分位数Q3。这三个四分位数将整个数据集合分成四等分。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合50%的数据值。

异众比率

异众比率(variation ratio)是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的[频数]占总频数的比例。

偏态系数

偏态系数又称偏差系数,以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。


image.png

峰态系数

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。

在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,559评论 5 8
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 2,778评论 0 0
  • 在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估...
    davidac阅读 4,120评论 0 0
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,241评论 0 0
  • 理论篇 数据的集中趋势众数数据集合中出现次数最多的数为众数,可能不止一个数值。中位数对于数据集合,按照从小到大或从...
    evanzh7阅读 740评论 0 0