箱形图五要素
(1)中位数
中位数,即二分之一分位数。所以计算的方法就是将一组数据(此处中位数,特别指是从大到小排列的有序序列)按从小到大的顺序,取中间这个数。
如果原始序列长度n是奇数,那么中位数所在位置是(n+1)/2;
如果原始序列长度n是偶数,那么中位数所在位置是n/2,n/2+1,中位数的值等于这两个位置的数的算数平均数。
2)上四分位数Q1
确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
举个例子,有有序序列一个test = c(1,2,3,4,5,6,7,8),通过summary(test)来获取test这个序列的中位数,上四分位数,下四分位数以及算数平均值。
这个Q1=2.75是怎么计算出来的呢?首先序列长度n=8,(1+n)/4=2.25,这是什么意思呢?说明上四分位数在第2.25个位置数,实际上这个数是不存在的,但我们知道这个位置是在第2个数与第3个数之间的。
(3)下四分位数Q3
这个下四分位数所在位置计算方法同上,只不过是(1+n)/4*3=6.75,这个是个介于第六个位置与第七个位置之间的地方。对应的具体的值是0.75*6+0.25*7=6.25。
4、上限
上限是非异常范围内的最大值。
首先要知道什么是四分位距如何计算的?
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限
下限是非异常范围内的最小值。
下限=Q1-1.5IQR
目前我们文章中看到的这两个T形的盒须就是内限。上面的T形线段所延伸到的极远处,是Q3+1.5IQR(其中,IQR=Q3-Q1)与剔除异常值后的极大值两者取最小,下面的T形线段所延伸到的极远处,是Q1-1.5IQR与剔除异常值后的极小值两者取最大。
外限与内限的计算方法相同,唯一的区别就在与:上面的T形线段所延伸到的极远处,是Q3+3IQR(其中,IQR=Q3-Q1)与剔除异常值后的极大值两者取最小,下面的T形线段所延伸到的极远处,是Q1-3IQR与剔除异常值后的极小值两者取最大。