简单理解统计学3-描述分布的数值

来自于Simple Learning Pro的系列课程

上一章介绍了如何用图标来表示数值的分布;有些统计型数值通常也用来描述数据的分布:
众数
中位数
平均值
范围
标准差(方差)

描述分布的数值

众数、中位数、均值

这三者一般用于描述中心量数(measures of center)

众数:一组数据中,出现次数最多的数据

中位数:按顺序排列的一组数据中居于中间位置的数;对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数
当N为奇数时,M(0.5)=X(N+1)/2
当N为偶数时,M(0.5)=[X(N)/2+X(N+1)/2]/2

均值:是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数

中心量数

范围、标准差

以上两指标分散程度的度量:

范围:一组数据中,最大值-最小值

标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根

范围、标准差

四则运算对描述分布的数值计算的影响

中心度量值(中位数,众数,平均值)受任何加减乘除的影响;
分散度量值(范围,标准差)仅受乘除的影响;

假设一组数值每个基础变量均增量相同的量,相当于整体分布右移,但其分散程度并未发生变化;
若基础变量同时发生多项运算,均值的计算同时发生多项运算,方差的计算仅针对乘除有效。

四则运算对分布度量值的影响
影响示例

离群值对描述分布的数值计算的影响

离群值(outlier)是指数据中有一个或几个数值与其他数值相比差异较大;
在描述分布的数值中,均值、范围、标准差均会受到离群值的影响;而众数和中位数则相对稳定

离群值对度量的影响

5数概括法及箱形图

五数概括法即用下面的五个数来概括数据:

最小值;
第1四分位数(Q1): 位置= (n+1) × 0.25
中位数(Q2): 位置= (n+1) × 0.5
第3四分位数(Q3): 位置= (n+1) × 0.75
最大值。

箱形图提供了五数概括法的视觉展示,同时箱形图也可展示异常值。
异常值的判断标准如下:数值<Q1-1.5*IQR  或者  数值>Q3+1.5*IQR
其中,IQR为四分位间距=Q3-Q1

箱型图

对称性与偏度

当我们在说对称性(symmetry)和偏度(skewness)时,我们主要看的是分布图形的形状(在此主要涉及到三种图形:直方图、茎叶图、箱形图)

对称式分布,图形左右完全对称;中位数=均值

非对称式分布

左偏态:左侧尾部拖得很长;此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;中位数>平均数

右偏态:右侧尾部拖得很长,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;平均值>中位数

分布的对称性
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 本次主要是从数据的描述性统计开始学习,主要包括有数据的集中趋势、离中趋势、相对离散程度和分布的形状四个方面开始学习...
    这里假装有个名字阅读 8,570评论 1 2
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 10,928评论 5 8
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 8,236评论 0 0
  • 早些时间也给自己立下今年的学习目标大数据架构师,为了这一目标也买了不少书籍,下了不少电子书,甚至有报班的...
    麦子星星阅读 5,669评论 0 1
  • 写生的蝴蝶兰,每年春节都买来装饰房间的花,特别好看又特别喜欢。 临摹第二遍,老师的第五课 二月兰 临摹第一遍发现很...
    鼻涕兔阅读 2,578评论 0 4

友情链接更多精彩内容