登录注册写文章

R学习记录 - Cleaning Data

R学习记录 - Cleaning Data

做过数据分析的都知道，可能只有25%左右的时间是花在分析数据上边的，剩下的时间都在清洗数据（cleaning data）。所以清理数据是数据分析中超级费时间，但是超级重要的事情。

以前我清理数据基本上就重点看3个事情：

重复值
极端值
缺失值

不过这只是自己总结的东西，今天算是比较系统地在datacamp上学了清理数据的过程，感觉以后清理数据更有信心了。

通过这次学习我理解的主要过程稍微升级了一点：

观察数据：看数据的结构、极值等，主要用str()，summary()等函数
整理数据结构：调整长宽，格式等，主要用到 library(tidyr)
最后才是missing value，extreme value等，
3.1 缺失值：1) 缺失总数 sum(is.na()), 2）在哪？which(), 3) 替换

3.2 极端值：主要用到可视化工具：hist(), boxplot(), plot()

这次只是初步的清理数据，后边对缺失值、极端值的处理还有很多讲究，还需要深入学习，加油！

最后贴上证书激励自己一下！

image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 134,969评论 19赞 139
面向开发人员的机器学习指南
首页资讯文章资源小组相亲登录注册首页最新文章 IT 职场前端后端移动端数据库运维其他...
Helen_Cat阅读 3,926评论 1赞 10
pandas 数据分析
参考：https://amaozhao.gitbooks.io/pandas-notebook/content/h...
与尔岩说阅读 8,686评论 0赞 26
一文带你探索性数据分析(EDA)
探索数据分析作者：Blink 邮箱：592702703@qq.com 爱好：喜欢数据分析、可视化和机器...
正在充电Loading阅读 62,273评论 7赞 63
一树梅花
想用一树梅花，装下你的天涯；想用一树梅花，写满你的光阴。天涯已远，光阴已远，心却不远。早春时节，开花时节，...
冰夫阅读 213评论 0赞 0

赞1赞

赞赏

手机看全文