来自于Simple Learning Pro的系列课程
上一章介绍了如何用图标来表示数值的分布;有些统计型数值通常也用来描述数据的分布:
众数
中位数
平均值
范围
标准差(方差)
众数、中位数、均值
这三者一般用于描述中心量数(measures of center)
众数:一组数据中,出现次数最多的数据
中位数:按顺序排列的一组数据中居于中间位置的数;对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数
当N为奇数时,M(0.5)=X(N+1)/2
当N为偶数时,M(0.5)=[X(N)/2+X(N+1)/2]/2
均值:是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数
范围、标准差
以上两指标分散程度的度量:
范围:一组数据中,最大值-最小值
标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根
四则运算对描述分布的数值计算的影响
中心度量值(中位数,众数,平均值)受任何加减乘除的影响;
分散度量值(范围,标准差)仅受乘除的影响;
假设一组数值每个基础变量均增量相同的量,相当于整体分布右移,但其分散程度并未发生变化;
若基础变量同时发生多项运算,均值的计算同时发生多项运算,方差的计算仅针对乘除有效。
离群值对描述分布的数值计算的影响
离群值(outlier)是指数据中有一个或几个数值与其他数值相比差异较大;
在描述分布的数值中,均值、范围、标准差均会受到离群值的影响;而众数和中位数则相对稳定
5数概括法及箱形图
五数概括法即用下面的五个数来概括数据:
最小值;
第1四分位数(Q1): 位置= (n+1) × 0.25
中位数(Q2): 位置= (n+1) × 0.5
第3四分位数(Q3): 位置= (n+1) × 0.75
最大值。
箱形图提供了五数概括法的视觉展示,同时箱形图也可展示异常值。
异常值的判断标准如下:数值<Q1-1.5*IQR 或者 数值>Q3+1.5*IQR
其中,IQR为四分位间距=Q3-Q1
对称性与偏度
当我们在说对称性(symmetry)和偏度(skewness)时,我们主要看的是分布图形的形状(在此主要涉及到三种图形:直方图、茎叶图、箱形图)
对称式分布,图形左右完全对称;中位数=均值
非对称式分布
左偏态:左侧尾部拖得很长;此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;中位数>平均数
右偏态:右侧尾部拖得很长,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;平均值>中位数