做过数据分析的都知道,可能只有25%左右的时间是花在分析数据上边的,剩下的时间都在清洗数据(cleaning data)。所以清理数据是数据分析中超级费时间,但是超级重要的事情。
以前我清理数据基本上就重点看3个事情:
- 重复值
- 极端值
- 缺失值
不过这只是自己总结的东西,今天算是比较系统地在datacamp上学了清理数据的过程,感觉以后清理数据更有信心了。
通过这次学习我理解的主要过程稍微升级了一点:
- 观察数据:看数据的结构、极值等,主要用str(),summary()等函数
- 整理数据结构:调整长宽,格式等,主要用到 library(tidyr)
- 最后才是missing value,extreme value等,
3.1 缺失值:1) 缺失总数 sum(is.na()), 2)在哪?which(), 3) 替换
3.2 极端值:主要用到可视化工具:hist(), boxplot(), plot()
这次只是初步的清理数据,后边对缺失值、极端值的处理还有很多讲究,还需要深入学习,加油!
最后贴上证书激励自己一下!