-
缺失值
异常值处理办法
- 丢弃
diamonds2 <- diamonds %>%
filter(between(y, 3, 20))
选择y=3-20之间的数值。
- 用缺失值代替
diamonds2 <- diamonds %>%
mutate(y = ifelse(y < 3 | y > 20, NA, y))
ifelse() 函数有3 个参数。第一个参数test 应该是一个逻辑向量,如果test 为TRUE,函
数结果就是第二个参数yes 的值;如果test 为FALSE,函数结果就是第三个参数no 的值。
和R 一样,ggplot2 也遵循不能无视缺失值的原则。因为无法明确地绘制出缺失值,所以
ggplot2 在绘图时会忽略缺失值,但会提出警告以通知缺失值被丢弃了,要想不显示这条警告,可以设置na.rm = TRUE.
ggplot(data = diamonds2, mapping = aes(x = x, y = y)) +
geom_point(na.rm = TRUE)
-
相关变动
1.分类变量与连续变量
ggplot(data = diamonds, mapping = aes(x = price)) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)
Y默认是count值
三个变量显示
ggplot(
data = diamonds,
mapping = aes(x = price, y = ..density..)
) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)
箱体图
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()
箱体图排序
ggplot(data = mpg) +
geom_boxplot(mapping = aes(
x = reorder(class, hwy, FUN = median),
y = hwy))
FUN是分类依据(以基于hwy 值的中位数对class 进行重新排序)
倒置coord_flip()
总结:
filter()筛选
between()筛选范围
mutate()建立新变量
ifelse()筛选条件
na.rm=true显示NA值
geom_freqpoly()折线图
geom_boxplot ()箱体图
reorder()图形排序
coord_flip()倒置