3 分散性与变异性
上界:数据集中的最大值
下界: 数据集中的最小值
全距:也叫极差,是用于量度数据集分散程度的一种方法
-
计算方法为:
- 全距=上界-下界
全距很容易受异常值的影响
四分位数:即将数据分割为四等分的几个数值
最大的四分位数称为上四分位数
最小的四分位数称为下四分位数
中间的四分位数即为中位数
四分位距:即50%中间数值形成的一个间距,即一个不易受异常值影响的“迷你距”
-
计算方法:
- 四分位距=上四分位数-下四分位数
相比全距,四分位距较不易受异常值影响
百分位数:将数据一分为百,对于划分档次非常有用
- 第k百分位数就是位于数据范围k%处的数值,用Pk表示
百分位距:与四分位距相似,但百分位距是介于两个百分位数之间的距离
箱线图:或称箱形图,能在同一张图上体现多个距和四分位数,是在这方面十分有用的一种方法。
“箱”显示出四分位数和四分位距的位置
”线“则显示出上、下界
箱线图能在同一张图上体现多批数据因此非常有利于比较
方差:是量度数据分散性的一种方法,是数据与均值的距离的平方数的平均值
-
计算方法:
标准差:粗略的体现了平均情况下的数值与均值的距离
-
计算方法:
- 标准差是方差的平方根;方差是标准差的平凡
标准分:(或称Z分)是对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同
-
计算方法: