处理数据时,难免会遇到缺失值。如何处理缺失值呢?统计学中有个概念叫imputation,看到一些资料将其翻译成“填补”或“插补”,但我觉得翻译成“设算”似乎更合适些。
本文采用R自带的iris数据进行演示。首先修改iris数据集,将其中一些值更改为NA。
注意:不能直接修改iris数据集,要先将其赋予一个变量。
# Changes some values to NA ----
data <- iris
data[1,3] <- NA
data[c(1,4),c(1,2)] <- NA
data[c(6,9),2] <- NA
data[10,1] <- NA
data[c(8:9),5] <- NA
head(data,10)
> head(data,10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 NA NA NA 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 NA NA 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 NA 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5.0 3.4 1.5 0.2 <NA>
9 4.4 NA 1.4 0.2 <NA>
10 NA 3.1 1.5 0.1 setosa
1. 缺失值可视化
使用visdat
对缺失值进行可视化。
# Visualizing missing values ----
install.packages("visdat")
install.packages("dplyr")
library(visdat)
library(dplyr)
data %>% vis_miss()
2. 评估含缺失值的变量之间的关系
使用naniar
检查含有缺失值的变量之间是否存在关系。
install.packages("naniar")
library(naniar)
## Is it often that we have both Sepal.Length and Sepal.Width missing at the same time?
data %>% gg_miss_upset()
3. 设算填补
使用simputation
对缺失值进行填补。常用的方法有:线性模型、平均值、均值等。
install.packages("simputation")
library(simputation)
3.1 线性模型填补(linear model imputation)
使用线性模型对Sepal.Length
的缺失值进行填补。注意到第1行和第3行依然存在缺失值,因为它们的Sepal.Width
(在该模型中作为predictor variable)也缺失,因此该线性模型无法基于Sepal.Width
对Sepal.Length
作出预测。但它仍可以返回部分填补后的结果。
# Impute Sepal.Length using a linear model use the `impute_lm` function
data_lm <- impute_lm(data, Sepal.Length~Sepal.Width + Species)
> head(data_lm, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 NA NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 NA NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 <NA>
9 4.400000 NA 1.4 0.2 <NA>
10 4.746835 3.1 1.5 0.1 setosa
3.2 中位数填补(median imputation)
按照Species
分别计算中位数,并进行填补。
# Impute Sepal.Length using the group median
data_median <- impute_median(data_lm, Sepal.Length ~ Species)
> head(data_median, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.000000 NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 5.000000 NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 <NA>
9 4.400000 NA 1.4 0.2 <NA>
10 4.746835 3.1 1.5 0.1 setosa
3.3 决定树模型填补(decision tree model imputation)
这里,我们采用决定树模型对Species
的缺失值进行填补。除了Species
外的所有变量都被用作预测值(predictor)。
data_cart <- impute_cart(data_median, Species ~ .)
> head(data_cart, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.000000 NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 5.000000 NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 setosa
9 4.400000 NA 1.4 0.2 setosa
10 4.746835 3.1 1.5 0.1 setosa
3.4 链式填补(chaining imputation)
可以使用|>
运算符将以上操作打包。
# Chaining imputation methods ----
data_chain <- data |>
impute_lm(Sepal.Length ~ Sepal.Width + Species) |>
impute_median(Sepal.Length ~ Species) |>
impute_cart(Species ~ .)
3.5 多元变量模型预测填补(imputation model for multiple variables)
我们可以根据不同物种的Petal.Length
分别对它们的Sepal.Length
和Sepal.Width
进行预测。
data_rlm <- impute_rlm(data, Sepal.Length + Sepal.Width ~ Petal.Length + Species)
> head(data_rlm, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 NA NA NA 0.2 setosa
2 4.900000 3.000000 1.4 0.2 setosa
3 4.700000 3.200000 1.3 0.2 setosa
4 5.042242 3.427884 1.5 0.2 setosa
5 5.000000 3.600000 1.4 0.2 setosa
6 5.400000 3.489194 1.7 0.4 setosa
7 4.600000 3.400000 1.4 0.3 setosa
8 5.000000 3.400000 1.5 0.2 <NA>
9 4.400000 NA 1.4 0.2 <NA>
10 5.042242 3.100000 1.5 0.1 setosa
3.6 分组数据的填补(grouping data for imputation)
在formula
中使用|
来设定分组。
注意:这里的分组数据不能含有缺失值,因此我们采用data_cart。
data_group <- impute_lm(data_cart, Sepal.Length ~ Petal.Width | Species)
该代码等同于:
data_group |> group_by(Species) |>
impute_lm(Sepal.Length ~ Petal.Width)
注意:使用group_by
前要先加载dplyr
包。
> head(data_group, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.000000 NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 5.000000 NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 setosa
9 4.400000 NA 1.4 0.2 setosa
10 4.746835 3.1 1.5 0.1 setosa
3.7 自定义填补方法(specify your own method)
simputation
提供impute_proxy
功能,可以自定义填补方法。
data_own <- impute_proxy(data, Sepal.Length ~ median(Sepal.Length,na.rm=TRUE)/median(Sepal.Width, na.rm=TRUE) * Sepal.Width | Species)
> head(data_own, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 NA NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 NA NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 <NA>
9 4.400000 NA 1.4 0.2 <NA>
10 4.558824 3.1 1.5 0.1 setosa
3.8 基于其它数据训练得到的模型对缺失值进行预测(inputing a dataset with models trained on another dataset)
比如我们已经有完整的iris数据,我们可以基于这个完整的数据建模:
model <- lm(Sepal.Length ~ Sepal.Width + Species, data=iris)
利用该模型预测缺失值:
data_model <- impute(data, Sepal.Length ~ model)
> head(data_model, 10)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 NA NA NA 0.2 setosa
2 4.900000 3.0 1.4 0.2 setosa
3 4.700000 3.2 1.3 0.2 setosa
4 NA NA 1.5 0.2 setosa
5 5.000000 3.6 1.4 0.2 setosa
6 5.400000 NA 1.7 0.4 setosa
7 4.600000 3.4 1.4 0.3 setosa
8 5.000000 3.4 1.5 0.2 <NA>
9 4.400000 NA 1.4 0.2 <NA>
10 4.742432 3.1 1.5 0.1 setosa
4. 参考资料
[1] https://www.business-science.io/code-tools/2021/01/19/handle-missing-data.html
[2] https://cran.r-project.org/web/packages/simputation/vignettes/intro.html
5. 软件及R包信息
> sessionInfo()R version 4.2.2 (2022-10-31)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04.5 LTS
Matrix products: default
BLAS: /usr/lib/x86_64-linux-gnu/atlas/libblas.so.3.10.3
LAPACK: /usr/lib/x86_64-linux-gnu/atlas/liblapack.so.3.10.3
locale:
[1] LC_CTYPE=C.UTF-8 LC_NUMERIC=C
[3] LC_TIME=C.UTF-8 LC_COLLATE=C.UTF-8
[5] LC_MONETARY=C.UTF-8 LC_MESSAGES=C.UTF-8
[7] LC_PAPER=C.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=C.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] simputation_0.2.8 naniar_0.6.1 dplyr_1.0.10
[4] visdat_0.5.3
loaded via a namespace (and not attached):
[1] fansi_1.0.3 utf8_1.2.2 MASS_7.3-58.1
[4] grid_4.2.2 R6_2.5.1 gtable_0.3.1
[7] lifecycle_1.0.3 magrittr_2.0.3 scales_1.2.1
[10] ggplot2_3.4.0 pillar_1.8.1 rlang_1.0.6
[13] cli_3.4.1 rpart_4.1.19 vctrs_0.5.0
[16] generics_0.1.3 tools_4.2.2 gower_1.0.0
[19] glue_1.6.2 munsell_0.5.0 compiler_4.2.2
[22] colorspace_2.0-3 pkgconfig_2.0.3 tidyselect_1.2.0
[25] tibble_3.1.8