R学习记录 - Cleaning Data

做过数据分析的都知道,可能只有25%左右的时间是花在分析数据上边的,剩下的时间都在清洗数据(cleaning data)。所以清理数据是数据分析中超级费时间,但是超级重要的事情。

以前我清理数据基本上就重点看3个事情:

  1. 重复值
  2. 极端值
  3. 缺失值

不过这只是自己总结的东西,今天算是比较系统地在datacamp上学了清理数据的过程,感觉以后清理数据更有信心了。

通过这次学习我理解的主要过程稍微升级了一点:

  1. 观察数据:看数据的结构、极值等,主要用str(),summary()等函数
  2. 整理数据结构:调整长宽,格式等,主要用到 library(tidyr)
  3. 最后才是missing value,extreme value等,
    3.1 缺失值:1) 缺失总数 sum(is.na()), 2)在哪?which(), 3) 替换

3.2 极端值:主要用到可视化工具:hist(), boxplot(), plot()

这次只是初步的清理数据,后边对缺失值、极端值的处理还有很多讲究,还需要深入学习,加油!

最后贴上证书激励自己一下!

image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,969评论 19 139
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,926评论 1 10
  • 参考:https://amaozhao.gitbooks.io/pandas-notebook/content/h...
    与尔岩说阅读 8,686评论 0 26
  • 探索数据分析 作者:Blink 邮箱:592702703@qq.com 爱好:喜欢数据分析、可视化和机器...
    正在充电Loading阅读 62,273评论 7 63
  • 想用一树梅花,装下你的天涯;想用一树梅花,写满你的光阴。天涯已远,光阴已远,心却不远。早春时节,开花时节,...
    冰夫阅读 213评论 0 0