R小姐:数据探索之数据质量分析


广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。

如此军中尽是热血男儿,便攻无不克,战无不胜。

数据质量分析中的缺失值便是如此,或删除、或替换、或插补。

1

缺失值分类

统计学中将缺失数据分为三类:

1.完全随机缺失

某变量的缺失数据与其他任何观测或未观测变量都不相关。

2.随机缺失

某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。

3.非随机缺失

不属于上述两种情况的数据便为非随机缺失。

2

总览缺失值

#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')
#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))

结果:

sum(is.na(sleep))

[1] 38

所有缺失值占的比例

mean(is.na(sleep))

[1] 0.06129032

以行为单位,不完整样本的个数

sum(!complete.cases(sleep))

[1] 20

不完整样本的比例

mean(!complete.cases(sleep))

[1] 0.3225806

3

列表显示缺失值

md.pattern(sleep) 真的是一行代码

image

4

图表显示缺失值

#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))
image
#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))
image

识别缺失值的方法便是如此,下期介绍处理缺失值的方法。

下期再见。

你可能还想看

等你很久啦,长按加入古同社区

image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • {因为文章好,所以转载!!}R语言缺失值处理 2016-08-23 05:17砍柴问樵夫 数据缺失有多种原因,而大...
    梦醒启程阅读 19,848评论 2 11
  • 一、认识缺失值 在我们的数据分析过程中,经常会碰到缺失值的情况。缺失值产生的原因很多,比如人工输入失误,系统出错,...
    鸣人吃土豆阅读 6,229评论 0 11
  • 一.什么是缺失值,NA与NULL的区别 (1)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进行函数...
    雨一流阅读 1,031评论 0 0
  • 我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重...
    fhhhfssfhh阅读 1,518评论 0 6
  • 母爱 我对你的爱 如满天繁星般成千上万 却不及你予我的一半 遥隔千里的爱 如山间溪流般潺潺 如清晨阳光般温暖 却不...
    星月恋留阅读 5,068评论 0 2