描述性统计

描述性统计

数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。
1.1 集中趋势的度量
集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。

1.1.1 分类的数据:众数
众数(mode)是一组数据中最多出现的变量值。主要用于测度分类数据的集中趋势。也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下:只有数据量大的情况下,众数才有意义。并且不受极端值的影响

在这里插入图片描述

1.1.2顺序数据:中位数和分位数
一组数据中,可以找出某个位置上的数据。

  • 中位数(median)是一组数据排序后处于中间位置上的变量值。适用于测度顺序数据的集中趋势,和数值型数据的集中趋势,不适用于分类数据。


    在这里插入图片描述
  • 四分位数 (quartile)也成四分位点,它是一组数据排序后处于25%上的位置和75%位置上的值。位置确定有如下几种:


    在这里插入图片描述

    Excel中可以使用QUARTILE函数计算一组数据的四分位数。
    算法:QUARTILE.INC(array,quart)

1.1.3 数值型数据:平均数
平均数也称均值(mean),它是一组数据相加后除以一组数据的个数的结果。
平均数是集中趋势的测度值,适用于数值型数据,而不适用于顺序数据和分类数据。

  1. 简单平均数和加权平均数
    根据未经分组数据计算的平均数称之为简单平均数(simple mean)
在这里插入图片描述
  • 根据分组数据计算的平均数称之为加权平均数(weighted mean)


    在这里插入图片描述

    2.特殊的平均数:几何平均数

  • 几何平均数(geometric mean) 是n个变量值乘积的n次方根,用G表示。
    当数据中出现零值或负值时,不宜计算集合平均数。主要用于计算平均比率。

    在这里插入图片描述

    Excel中GEOMEAN函数可以计算数值型的几何平均数
    语法:GEOMEAN(number1……)
    当所平均的各比率数值差别不大时,算数平均和几何平均结果差别不大,反之差别明显。

1.1.4 众数,中位数,平均数的差别

  • 关系:
    分布角度:众数是数据分布的最高峰值,中位数处于数据中中间位置上的值,平均数是算数平均。
    对于单峰分布而言:如果数据对称:众数=平均数=中位数。
    如果左偏分布:会出现极小值,关系为:平均数<中位数<众数。
    如果右偏分布 :众数<中位数<平均数。

  • 应用场合:
    众数是一组数据分布的峰值,不受极值影响。缺点是不具有唯一性。适合作为分类数据的集中趋势测度值。

    中位数是一组数据中间位置上的值,不受极端值影响,适合顺序数据的测度值。

    平均数:针对数值型数据,是应用最广泛的集中趋势测度值。缺点容易受极端值影响。


    在这里插入图片描述

1.2 离散程度的度量

数据的离散程度是数据分布的另一个重要特征。反应个变量值原理中心值的程度。越大,集中趋势测度值代表性就越差;越小,代表性就越好。根据不同数据类型还有的异众比率,四分位差,方差和标准差。还有极差,平均差,和离散系数。

1.2.1 分类依据 :异众比率(variation ratio)
是指非众数组的频数占总频数的比例。用Vr表示

在这里插入图片描述

异众比率主要衡量众数对一组数据的代表程度。越大说明,非众数组的频数越大,众数的代表性越差。反之,越好。属于顺序和数值型数据也可以计算。

1.2.2顺序数据:四分位差(quartile deviation)

也称四分间距(inner -quartile range),是上四分位数和下四分位数的差值。Qd表示
Qd = Qu-Ql
其反映了50%的离散程度,数值越小,说明中间数据;反之,分散。一定程度上说明了中位数的影响,不适合分类数据。

1.2.3 数值型数据:方差和标准差

  • 极差:一组数据中最大值和最小值的差。也称全距。用R表示。
    R = max(Xi)-min(Xi)
    容易受极端值影响,不能反映中间数据。

  • 平均差(mean deviation)
    也称平均绝对差(mean absolute deviation)。是个变量值与平均数差的绝对值。

    在这里插入图片描述

    Excel的AVEDEV(number……)可以计算平均差。

能全面反映数据的离散程度。越大说明离散程度越大;反之,越小。

  • 方差和标准差
    方差(variance)是各变量值与平均数差平方的平均数。
    标准差(standard deviation)是方差的平方根。

能更好的反映数据的离散程度。


在这里插入图片描述

Excel的统计函数STDEV(number……)
总体数据:STDEVP(number……)

自由度(degree of freedom):样本方差是用样本数据减1后去除离差的平方和。其中n-1称为自由度。


在这里插入图片描述
  • 相对位置的度量
    1.标准分数(standard score):变量值与其平均数的差除以标准差。也称标准分数。设标准分数为z

    在这里插入图片描述

    标准分数给了一组数据中的相对位置。

1.2.4 相对离散程度:离散系数

离散系数:也称变异系数,它是一组数的标准差和平均数之比。

在这里插入图片描述

1.3 偏态和峰态的度量

1.3.1 偏态及其测度

偏态(skewness):是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness )。记作 SK。

在这里插入图片描述

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 本次主要是从数据的描述性统计开始学习,主要包括有数据的集中趋势、离中趋势、相对离散程度和分布的形状四个方面开始学习...
    这里假装有个名字阅读 8,577评论 1 2
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 5,819评论 0 6
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 10,931评论 5 8
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 5,080评论 0 0
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 8,242评论 0 0

友情链接更多精彩内容