写在前面。
这篇文章对应原书的第6章,主要介绍一些描述数据分布的可视化图形。主要包括如下这些:
- 直方图
- 密度图
- 频数多边形
- 箱线图
- 小提琴图
- Wilkinson点图
箱线图
如何绘制箱线图呢?
基本箱线图
使用geom_boxplot
语句,并将一个离散型变量
映射给x
,一个连续型变量
映射给y
。
ggplot(data = birthwt, aes(x = factor(race), y = bwt)) + geom_boxplot()
[图片上传失败...(image-efebb8-1696722012947)]
书中有一个图呈现了几种图的区别。
[图片上传失败...(image-bc9d8a-1696722012947)]
槽口箱线图
如何向箱线图
添加槽口
以体现中位数的差别
呢?
通过设置参数notch=TRUE
。
ggplot(data = birthwt, aes(x = factor(race), y = bwt)) +geom_boxplot(notch = TRUE)
[图片上传失败...(image-fe7027-1696722012947)]
均值标记
如何向箱线图
添加均值标记
?
使用stat_summary
函数,箱线图中的均值以钻石形状呈现。
注意fun.y
已经弃用,直接使用fun
即可。
所以用点型23
,颜色为白色
。
ggplot(data = birthwt, aes(x = factor(race), y = bwt)) +
geom_boxplot() +
stat_summary(fun= "mean", geom = "point", shape=23, size = 3, fill = "white")
[图片上传失败...(image-bc55f1-1696722012947)]
- 箱线图中间的水平线表示的是
中位数
,而不是均值
。对于正态分布数据,中位数与均值接近;对于偏态数据将有所不同。