数据分布的描述

数据的分布描述简单可以概括为集中趋势、离散程度以及分布形状等

一、集中趋势描述的优劣比较

1.平均数

也称为均值,常用的统计量之一

消除了观测值的随机波动

易受极端值的影响

数学性质优良,实际中最常用

数据对称分布或接近对称分布时代表性较好

2.中位数

排序后处于中间位置上的值。不受极端值影响

数据分布偏斜程度较大时代表性接好

3. 四分位数

排序后处于25%和75%位置上的值

不受极端值的影响

4. 众数

一组数据中出现次数最多的变量值

适合于数据量较多时使用

不受极端值的影响

具有不惟一性,一组数据可能没有众数或有几个众数

数据分布偏斜程度较大且有明显峰值时代表性较好

二、离散程度的描述

1.极差

一组数据的最大值与最小值之差

离散程度的最简单测度值

易受极端值影响

未考虑数据的分布

2.四分位差

也称为内距或四分间距

上四分位数与下四分位数之差

反映了中间50%数据的离散程度

不受极端值的影响

用于衡量中位数的代表性

3.方差与标准差

数据离散程度的最常用测度值

反映各变量值与均值的平均差异

根据总体数据计算的,称为总体方差(标准差)

根据样本数据计算的,称为样本方差(标准差)

4.离差

每个观测值与均值的差异

5.标准分数

计算方式为(原始数据-均值)/标准差

对某一个值在一组数据中相对位置的度量

可用于判断一组数据是否有离群点

用于对变量的标准化处理

均值等于0

方差等于1

只是将原始数据进行了线性变换,没有改变某个数据在该组数据中的位置,也没有改变该组数分布的形状

6.离散系数

标准差与其相应的均值之比

消除了数据水平高低和计量单位的影响

用于对不同组别数据离散程度的比较

解释需要谨慎,特别对于平均值趋近于0的样本,此时敏感度较大

没有置信区间

7.异众比率

非众数组的频数占总频数的比率

衡量众数对一组数据的代表程度,异众比率越高大,说明非众数组占总频数的比重越大,众数的代表性越差

三、数据分布性状的描述

偏态与峰态测量的是数据的形状,如是否对称、偏斜的程度以及扁平的程度

1.偏态

测度统计量是偏态系数

偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布

偏态系数大于1或小于-1,为高度偏态分布

偏态系数在0.5~1或-1~-0.5之间,是中等偏态分布

偏态系数越接近0,偏斜程度就越低

2.峰态

测度统计量是峰态系数

峰态系数=0扁平峰度适中

峰态系数<0为扁平分布

峰态系数>0为尖峰分布

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 10,958评论 5 8
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 5,101评论 0 0
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 8,281评论 0 0
  • 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程...
    猿学阅读 4,781评论 0 0
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 12,935评论 0 3

友情链接更多精彩内容