[toc]
图表是数据分析的重要组成部分,一张优秀的图表可以很好的阐述数据表达的思想
1. 箱线图(盒须图)
这是一张横过来的箱线图,箱线图一般有以下组成部分:
image.png
- Q1: 下四分位数
- Q3:上四分位数
- 最大值和最小值是指去掉中度离群值和极端离群值之后的数据的最大值和最小值;
- 四分卫间距 IQR = Q3-Q1
- 下侧内分线:Q1-1.5*IQR
- 上侧内分线:Q3 + 1.5*IQR
- 下侧外分线: Q1-3*IQR
- 上侧外分线: Q3 + 3*IQR
- 中度离群值(mild outlier): 任何一个超出下侧或上侧内分线的值称之为中度离群值;
- 极端离群值(extreme oulier):任何一个超出下侧或上侧外分线的值称之为极端离群值;
需要注意的一点是,箱线图的最大值和最小值是指去掉中度离群值和极端离群值之后的数据的最大值和最小值;
image.png
箱线图能很好的表达出来一组数据的离散程度,在对比多组数据时有较好的表达效果
image.png
spss画箱线图
图形-图表构建器-箱图
image.png
2.茎叶图
使用茎叶图可以检查样本数据的形状和分布,使用茎叶图时,样本量不宜过大,一般小于50个样本数据时,效果最佳
image.png
如下图,主干宽度为10,那么,第一行数据表示,在4*10也就是40的树干上,有一个树叶4, 频率为1;
第二行数据表示,在5*10也就是50的树干上,有6片树叶,分别是 4、 5、 6、 6、 7、 9,频率为6,
也就是说,第一行的数据的数值为 44, 第二行数据的数值为 54、 55、 56、 56、 57、 59
需要注意的一点是,叶子的单位要比树干的单位低一级,如,主干宽度是千位数,叶子单位就是百位数,主干宽度是百位数,叶子宽度就是十位数
image.png
绘制茎叶图
image.png
image.png