如何用R语言处理缺失值?

处理数据时,难免会遇到缺失值。如何处理缺失值呢?统计学中有个概念叫imputation,看到一些资料将其翻译成“填补”或“插补”,但我觉得翻译成“设算”似乎更合适些。

本文采用R自带的iris数据进行演示。首先修改iris数据集,将其中一些值更改为NA。
注意:不能直接修改iris数据集,要先将其赋予一个变量。

# Changes some values to NA ----
data <- iris
data[1,3] <- NA
data[c(1,4),c(1,2)] <- NA
data[c(6,9),2] <- NA
data[10,1] <- NA
data[c(8:9),5] <- NA
head(data,10)
> head(data,10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1            NA          NA           NA         0.2  setosa
2           4.9         3.0          1.4         0.2  setosa
3           4.7         3.2          1.3         0.2  setosa
4            NA          NA          1.5         0.2  setosa
5           5.0         3.6          1.4         0.2  setosa
6           5.4          NA          1.7         0.4  setosa
7           4.6         3.4          1.4         0.3  setosa
8           5.0         3.4          1.5         0.2    <NA>
9           4.4          NA          1.4         0.2    <NA>
10           NA         3.1          1.5         0.1  setosa

1. 缺失值可视化

使用visdat对缺失值进行可视化。

# Visualizing missing values ----
install.packages("visdat")
install.packages("dplyr")
library(visdat)
library(dplyr)
data %>% vis_miss()
图1.缺失值可视化

2. 评估含缺失值的变量之间的关系

使用naniar检查含有缺失值的变量之间是否存在关系。

install.packages("naniar")
library(naniar)
## Is it often that we have both Sepal.Length and Sepal.Width missing at the same time?
data %>% gg_miss_upset()
图2.缺失值的数量统计

3. 设算填补

使用simputation对缺失值进行填补。常用的方法有:线性模型、平均值、均值等。

install.packages("simputation")
library(simputation)

3.1 线性模型填补(linear model imputation)

使用线性模型对Sepal.Length的缺失值进行填补。注意到第1行和第3行依然存在缺失值,因为它们的Sepal.Width(在该模型中作为predictor variable)也缺失,因此该线性模型无法基于Sepal.WidthSepal.Length作出预测。但它仍可以返回部分填补后的结果。

# Impute Sepal.Length using a linear model use the `impute_lm` function
data_lm <- impute_lm(data, Sepal.Length~Sepal.Width + Species)
> head(data_lm, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1            NA          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4            NA          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2    <NA>
9      4.400000          NA          1.4         0.2    <NA>
10     4.746835         3.1          1.5         0.1  setosa

3.2 中位数填补(median imputation)

按照Species分别计算中位数,并进行填补。

# Impute Sepal.Length using the group median
data_median <- impute_median(data_lm, Sepal.Length ~ Species)
> head(data_median, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1      5.000000          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4      5.000000          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2    <NA>
9      4.400000          NA          1.4         0.2    <NA>
10     4.746835         3.1          1.5         0.1  setosa

3.3 决定树模型填补(decision tree model imputation)

这里,我们采用决定树模型对Species的缺失值进行填补。除了Species外的所有变量都被用作预测值(predictor)。

data_cart <- impute_cart(data_median, Species ~ .)
> head(data_cart, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1      5.000000          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4      5.000000          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2  setosa
9      4.400000          NA          1.4         0.2  setosa
10     4.746835         3.1          1.5         0.1  setosa

3.4 链式填补(chaining imputation)

可以使用|>运算符将以上操作打包。

# Chaining imputation methods ----
data_chain <- data |>
  impute_lm(Sepal.Length ~ Sepal.Width + Species) |>
  impute_median(Sepal.Length ~ Species) |>
  impute_cart(Species ~ .)

3.5 多元变量模型预测填补(imputation model for multiple variables)

我们可以根据不同物种的Petal.Length分别对它们的Sepal.LengthSepal.Width进行预测。

data_rlm <- impute_rlm(data, Sepal.Length + Sepal.Width ~ Petal.Length + Species)
> head(data_rlm, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1            NA          NA           NA         0.2  setosa
2      4.900000    3.000000          1.4         0.2  setosa
3      4.700000    3.200000          1.3         0.2  setosa
4      5.042242    3.427884          1.5         0.2  setosa
5      5.000000    3.600000          1.4         0.2  setosa
6      5.400000    3.489194          1.7         0.4  setosa
7      4.600000    3.400000          1.4         0.3  setosa
8      5.000000    3.400000          1.5         0.2    <NA>
9      4.400000          NA          1.4         0.2    <NA>
10     5.042242    3.100000          1.5         0.1  setosa

3.6 分组数据的填补(grouping data for imputation)

formula中使用|来设定分组。
注意:这里的分组数据不能含有缺失值,因此我们采用data_cart

data_group <- impute_lm(data_cart, Sepal.Length ~ Petal.Width | Species)

该代码等同于:

data_group |> group_by(Species) |>
  impute_lm(Sepal.Length ~ Petal.Width)

注意:使用group_by前要先加载dplyr包。

> head(data_group, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1      5.000000          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4      5.000000          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2  setosa
9      4.400000          NA          1.4         0.2  setosa
10     4.746835         3.1          1.5         0.1  setosa

3.7 自定义填补方法(specify your own method)

simputation提供impute_proxy功能,可以自定义填补方法。

data_own <- impute_proxy(data, Sepal.Length ~ median(Sepal.Length,na.rm=TRUE)/median(Sepal.Width, na.rm=TRUE) * Sepal.Width | Species)
> head(data_own, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1            NA          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4            NA          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2    <NA>
9      4.400000          NA          1.4         0.2    <NA>
10     4.558824         3.1          1.5         0.1  setosa

3.8 基于其它数据训练得到的模型对缺失值进行预测(inputing a dataset with models trained on another dataset)

比如我们已经有完整的iris数据,我们可以基于这个完整的数据建模:

model <- lm(Sepal.Length ~ Sepal.Width + Species, data=iris)

利用该模型预测缺失值:

data_model <- impute(data, Sepal.Length ~ model)
> head(data_model, 10)
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1            NA          NA           NA         0.2  setosa
2      4.900000         3.0          1.4         0.2  setosa
3      4.700000         3.2          1.3         0.2  setosa
4            NA          NA          1.5         0.2  setosa
5      5.000000         3.6          1.4         0.2  setosa
6      5.400000          NA          1.7         0.4  setosa
7      4.600000         3.4          1.4         0.3  setosa
8      5.000000         3.4          1.5         0.2    <NA>
9      4.400000          NA          1.4         0.2    <NA>
10     4.742432         3.1          1.5         0.1  setosa

4. 参考资料

[1] https://www.business-science.io/code-tools/2021/01/19/handle-missing-data.html
[2] https://cran.r-project.org/web/packages/simputation/vignettes/intro.html

5. 软件及R包信息

> sessionInfo()R version 4.2.2 (2022-10-31)

Platform: x86_64-pc-linux-gnu (64-bit)

Running under: Ubuntu 20.04.5 LTS

Matrix products: default

BLAS:  /usr/lib/x86_64-linux-gnu/atlas/libblas.so.3.10.3

LAPACK: /usr/lib/x86_64-linux-gnu/atlas/liblapack.so.3.10.3

locale:

[1] LC_CTYPE=C.UTF-8      LC_NUMERIC=C         

[3] LC_TIME=C.UTF-8        LC_COLLATE=C.UTF-8   

[5] LC_MONETARY=C.UTF-8    LC_MESSAGES=C.UTF-8 

[7] LC_PAPER=C.UTF-8      LC_NAME=C           

[9] LC_ADDRESS=C          LC_TELEPHONE=C       

[11] LC_MEASUREMENT=C.UTF-8 LC_IDENTIFICATION=C 

attached base packages:

[1] stats    graphics  grDevices utils    datasets  methods 

[7] base   

other attached packages:

[1] simputation_0.2.8 naniar_0.6.1      dplyr_1.0.10   

[4] visdat_0.5.3   

loaded via a namespace (and not attached):

[1] fansi_1.0.3      utf8_1.2.2      MASS_7.3-58.1 

[4] grid_4.2.2      R6_2.5.1        gtable_0.3.1   

[7] lifecycle_1.0.3  magrittr_2.0.3  scales_1.2.1   

[10] ggplot2_3.4.0    pillar_1.8.1    rlang_1.0.6   

[13] cli_3.4.1        rpart_4.1.19    vctrs_0.5.0   

[16] generics_0.1.3  tools_4.2.2      gower_1.0.0   

[19] glue_1.6.2      munsell_0.5.0    compiler_4.2.2 

[22] colorspace_2.0-3 pkgconfig_2.0.3  tidyselect_1.2.0

[25] tibble_3.1.8 
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352