1、EDA:Exploratory Data Analysis
使用tidyverse+ggplot2
2、探索性数据分析先从问题开始,从一大串问题开始,不断找答案:变量的variation 、变量的 covariation
区分概念:变量、值 、观测、列表数据
3、variation:变量如何改变(变化趋势),比如,同一个对象,测量两次会有不一样的结果
3.1先探索变零值的分布趋势
如果是分类变量,用geom_bar()或count()
ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))
diamonds %>% count(cut)
如果是连续变量,用geom_histogram()或count(),要设置计算的间隔:
ggplot(data =diamonds)+ geom_histogram(mapping =aes(x =carat),binwidth =0.5)
diamonds %>% count(cut_width(carat, 0.5))
如果查看多个连续变量的分布:
ggplot(data = diamonds, mapping = aes(x = carat, colour = cut)) + geom_freqpoly(binwidth = 0.1)
3.2同一变量,什么情况下分布多,什么情况下分布少(clusters),思考什么原因导致的
比如,为什么carat(钻石重量)大于3的值很少呢?
3.3异常值, coord_cartesian将纵坐标压缩,可以清晰个别离群值
ggplot(diamonds) + geom_histogram(mapping = aes(x = y), binwidth = 0.5) + coord_cartesian(ylim = c(0, 50))
发现,异常值0,~30,~60
查看异常值
unusual <- diamonds %>% filter(y < 3 | y > 20) %>% select(price, x, y, z) %>% arrange(y)