探索性数据分析EDA-1

1、EDA:Exploratory Data Analysis

使用tidyverse+ggplot2


2、探索性数据分析先从问题开始,从一大串问题开始,不断找答案:变量的variation 、变量的 covariation

区分概念:变量、值 、观测、列表数据

3、variation:变量如何改变(变化趋势),比如,同一个对象,测量两次会有不一样的结果

3.1先探索变零值的分布趋势


如果是分类变量,用geom_bar()或count()

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))

diamonds %>% count(cut)

如果是连续变量,用geom_histogram()或count(),要设置计算的间隔:

ggplot(data =diamonds)+ geom_histogram(mapping =aes(x =carat),binwidth =0.5)

diamonds %>% count(cut_width(carat, 0.5))

如果查看多个连续变量的分布:

ggplot(data = diamonds, mapping = aes(x = carat, colour = cut)) + geom_freqpoly(binwidth = 0.1)

3.2同一变量,什么情况下分布多,什么情况下分布少(clusters),思考什么原因导致的

比如,为什么carat(钻石重量)大于3的值很少呢?

3.3异常值, coord_cartesian将纵坐标压缩,可以清晰个别离群值

ggplot(diamonds) + geom_histogram(mapping = aes(x = y), binwidth = 0.5) + coord_cartesian(ylim = c(0, 50))

发现,异常值0,~30,~60

查看异常值

unusual <- diamonds %>% filter(y < 3 | y > 20) %>% select(price, x, y, z) %>% arrange(y)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 毕业两年以后,母亲开始给我安排相亲,因为我一个女朋友都没找过。母亲不相信她优秀的儿子会找不到女朋友,那么只有一个原...
    book君阅读 467评论 2 1
  • 1 夜已深,天已凉,寂静的村里已经看不见什么灯火了,大多数人都已经在温暖的被窝里,酣然入睡。可是在村头的空旷的庄稼...
    小鹿故事集阅读 285评论 2 4
  • (σ՞ਊ՞)σ在车上码的字,算是完成学校的一项任务… 日渐发现随笔触发这种东西越写越上瘾,我可能真的中了文字的毒哈...
    仙贝baby阅读 222评论 0 0