第三章 分散性与变异性的量度:强大的“距”
平均数让人知道数据中心的情况,却无法知道数据的变动情况
分散性
一、全距(极差)
1、用于量度数据集分散程度的一种方法。全距指出数据的扩展范围,有点儿像测量数据的宽度。
2、算法为:上界—下界,其中上界为最大值,下界为最小值。
3、全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态
4、全距是描述数据集分散程度的简便方法,但并不是最好方法
二、迷你距
1、如果全距中包含异常值,可以找出全距的一个部分——不包含异常值部分,构建迷你距
2、如果要对几个数据集进行比较,请确保这几个数据集统统使用相同的迷你距
3、构建迷你距的方法,仅使用数据中心周边的数值。
4、四分位数和四分位距
1)四分位距提供了一种用于量度数据分散程度的标准的,可重复使用的方法。四分位距的优点是:与全距相比,较少受到异常值的影响,因为仅用了处于中心部位的50%数据
2)先把数据按升序排列,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一原有数据。
3)将整批数据一分为四作用的几个数值就是所谓的四分位数。
4)最小四分位数成为下四分位数或第一四分位数,最大的四分位数成为上四份位数或第三四分位数,中间的四分位数就是中位数,因为它将数据一分为二。
5)每两个四分位数之间的距被成为四分位距。四分位距=上四分位数-下四分位数。
5、求下四分位数的位置
1)首先计算n/4
2)如果结果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数
3)如果n/4不是整数,则向上取证,所得结果即为下四分位数位置
6、求上四分位数
1)首先计算3n/4
2)如果结果为整数,则上四分位数位于3n/4这个位置和下个位置的中间,将这两个位置上的数加起来,然后除以2
3)如果3n/4不是整数,则向上取证,所得到的新数字即为上四分位数的位置
7、百分位数和百分位距
1)如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数,第一个百分位数到最后一个百分位数之间的数据被称为百分位距。
2)百分位距不太常用,但百分位数本身却对于划分名次、排行很有用。可以通过百分位数确定某个数值相对于其他数值的高低。
3)第k百分位数即位于数据范围k%处的数值,记为Pk
8、求百分位数
1)首先将所有数值按升序排序
2)为了求出N个数字的第K百分位数的位置,先计算k(n/100)
3)如果结果为整数,则百分位数处于第k(n/100)位和下一位数之间,取这两个位置上的数字平均值,得出百分位数
4)如果k(n/100)不是整数,则将其向上取整,结果即百分位数的位置
箱形图(箱线图)
箱形图能在同一张图上体现多个距和四分位数,是在这方面十分有用的一种方法。
箱显示出四分位数和四分位距的位置,线则显示出上、下界
箱形图能在同一张图中,对不同数据集进行比较的极好方法。如图
变异性
全距与四分位距仅仅告诉你最大值和最小值之间的差值,却无法告诉你这些最高分或最低分的频率。
我们希望量度每批得分的分散性,不仅如此,还希望找到某种方法,利用所得到分散性看出球员的稳定程度。也可以说我们希望能够量度球员得分的变异性。变异性比分散性更具体。方法是,观察每个数值与均值的距离。如果我们能够算出各个数值与均值的某种平均距离,就有办法量度变异性和分散性。
变异性:平均值都一样,但是其散布/离散度明显不同,这就是数据变异性的体现。一般用方差、标准差、变异系数来描述。
一、方差
方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
或者
二、标准差
标准差是量度分散性的一种方法,它描述了典型值与均值距的离。
均值体现了平均数,而标准差体现了数值的变异度。
三、变异系数
标准差除以均值
问题:假设有两位能力不同的篮球队员:第一位投篮命中率为70%,其标准差为20%;第二位投篮命中率为40%,标准差为10%。在某一次训练中,球员1投篮命中率为40%,球员2投篮命中率为55%,从球员本人的历史记录来看,哪一位球员的表现更好。
标准分(Z分)
标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同。
通过处理,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较
标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1,这是一种可用于进行比较的通用分布。
标准分=距离均值的标准差个数,统计师有时候会用距离均值若干个标准差表示某个特定数值的相对位置