写在前面。
这篇文章对应原书的第6章,主要介绍一些描述数据分布的可视化图形。主要包括如下这些:
- 直方图
- 密度图
- 频数多边形
- 箱线图
- 小提琴图
- Wilkinson点图
直方图
直方图
是常见的一种呈现数据分布情况
的图形,下面分别说明一下。
简单直方图
示例数据faithful
数据集:
> str(faithful)
'data.frame': 272 obs. of 2 variables:
$ eruptions: num 3.6 1.8 3.33 2.28 4.53 ...
$ waiting : num 79 54 74 62 85 55 88 85 51 85 ...
使用geom_histogram()
绘制简单直方图,将数据集中的一个连续型变量
映射给x
变量。
ggplot(data = faithful, aes(x = waiting)) +geom_histogram()
默认情况数据被分成了30
份,可以使用binwidth
来指定分组数量。
直方图
默认填充色
为黑色
,且没有边框。可以通过相关选项进行设置。
ggplot(data = faithful, aes(x = waiting)) +
geom_histogram(binwidth = 3, fill = "white", colour = "black")
上例中bin
宽度设置为3
,fill
设置为白色
,边框colour
设置为黑色
。
直方图
的形状还依赖于组边界值
,使用boundary
进行设置。
注意,origin
已经弃用。
ggplot(data = faithful, aes(x = waiting)) +
geom_histogram(binwidth = 8, fill = "white", colour = "black", boundary = 35)