1. 四分位数
1.1 简述
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制,剔除异常值。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示:
Q1:第一四分位数、“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
Q2:第二四分位数、又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
Q3:第三四分位数、又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
IQR: 又称四分位距,IQR = Q3 - Q1
1.1 确定四分位数
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
(n 表示样本数量)
example :
n 为奇数
样本数据:6,10,12,15, 17,19,22,25,29,44 ,66
数据索引:1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11 (即可表示为第 1 个数据为 6,第 2 个数据为 10)
Q1 的位置 :(11 + 1) × 0.25 = 3.0 即 Q1 = 12
Q2 的位置 :(11 + 1) × 0.5 = 6.0 即 Q2 = 19
Q3 的位置 :(11 + 1) × 0.75 = 9.0 即 Q3 = 29
n 为偶数
样本数据: 7, 15, 36, 39, 40, 41
数据索引:1、 2、 3、 4、 5、 6
Q1的位置:(6 + 1) × 0.25 = 1.75 在第一与第二个数字之间, Q1 = 0.75*15+0.25*7 = 13,
Q2的位置: (6 + 1) × 0.5 = 3.5 在第三与第四个数字之间,Q2 = (36+39)/2= 37.5,
Q3的位置:(6 + 1) × 0.75 = 5.25 在第五与第六个数字之间, Q3 = 0.25*41+0.75*40 = 40.25.
1.1 应用
A.四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。
B. IQR (四分位差)
IQR = Q3 - Q1
IQR 的不足:无法考虑所有的数据、完全不同的两个数据集也可以有相同的IQR,例如正太分布、均匀分布、双峰分布。
C. 定义异常值
统计学中判断异常值的方式:
异常值被定义为不在 Q1 - 1.5(IQR) ~ Q1 + 1.5(IQR) 范围内的数据。
outlier < Q1 - 1.5(IQR)
> Q1 + 1.5(IQR)