最近用到了盒须图,这里整理记录下
什么是四分位数
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。
四分位数,就是排序后,按照25%、50%、75%的三个点,将数据分为4份
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)
什么是盒须图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征比较。
绘制盒须图,需要找到该组数据的最大值、最小值、中位数、两个四分位数,因为画出来很像一个箱子,所以也叫箱型图。
上边缘=》最大值
上四分位数=》第三四分位数(Q3)
中位数
下四分位数=》第一四分位数(Q1)
下边缘=》最小值
图中还有一个异常值,对于异常值的判断,是根据四分位距
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。.
使用Tableau绘制盒须图
看了上面的介绍,感觉绘制起来真心麻烦,还好使用Tableau可以方便的进行绘制。
这里我们使用Tableau的数据源
我们需要至少一个维度+度量,我们就是用省份+数量好了,然后就会自动生成一个盒须图,方便快捷
下面我们来理解一下这个图代表的含义,首先盒须图的几个主要点,Tableau会告诉我们
这里的上须就是最大值,下须就是最小值;
上枢纽就是Q3,第三四分位数;
下枢纽就是Q1,第一四分位数;
然后Q3-Q1,就可以得出一个差值1620.5-644=976.5
Tableau是根据1.5倍可以算的,所以Q3+1.5IQR和Q1-1.5IQR,就可以知道异常值的分界线,即那两根很长的线,就是最大值和最小值,外面的就是异常值了。
盒须图的意义
通过盒须图,我们可以直观的看到数据的分布情况,发现数据中的异常值,数据集中在哪里
继续上面的例子,我们可以再加一个维度,变成这样,就可以发现更多的故事,
这是每一年的销量情况,每年销量的中位数在哪儿,数据分布在什么地方,有多少异常值,都可以直观的看出来。