写在前面。
这篇文章对应原书的第6章,主要介绍一些描述数据分布的可视化图形。主要包括如下这些:
- 直方图
- 密度图
- 频数多边形
- 箱线图
- 小提琴图
- Wilkinson点图
直方图
直方图是常见的一种呈现数据分布情况的图形,下面分别说明一下。
简单直方图
示例数据faithful数据集:
> str(faithful)
'data.frame': 272 obs. of 2 variables:
$ eruptions: num 3.6 1.8 3.33 2.28 4.53 ...
$ waiting : num 79 54 74 62 85 55 88 85 51 85 ...
使用geom_histogram()绘制简单直方图,将数据集中的一个连续型变量映射给x变量。
ggplot(data = faithful, aes(x = waiting)) +geom_histogram()
默认情况数据被分成了30份,可以使用binwidth来指定分组数量。
直方图默认填充色为黑色,且没有边框。可以通过相关选项进行设置。
ggplot(data = faithful, aes(x = waiting)) +
geom_histogram(binwidth = 3, fill = "white", colour = "black")
上例中bin宽度设置为3,fill设置为白色,边框colour设置为黑色。
直方图的形状还依赖于组边界值,使用boundary进行设置。
注意,origin已经弃用。
ggplot(data = faithful, aes(x = waiting)) +
geom_histogram(binwidth = 8, fill = "white", colour = "black", boundary = 35)