先具体地总结几类处理方法:
1、最简单的就是用平均值、中值、分位数、众数、随机值等替代;
2、使用其他变量做预测模型来算出缺失值。两个缺陷:如果缺失值与其他变量不相关,那样预测没有意义,但如果特别精准,说明缺失值没有必要加入模型;
3、最精确的做法,把变量映射到高维空间。就是把是否缺失也看成数据的一维。这样做的好处就是完整保留了原始数据的全部信息,不用考虑缺失值,不用考虑线性不可分的问题,但是这种方法计算量太大,而且需要大量的样本。
下面具体分析:
1、缺失值较多的特征处理
如果某个特征缺失值过大,那么我们应该考虑直接将该特征舍弃掉,这时候的特征其实已经可以看做噪声了。
2、缺失值较少的特征处理
直接用0去填充;用均值去填充;用上下数据进行填充;用插值法填充;用算法拟合填充;
大部分情况下使用算法拟合来填充,考虑使用随机森林算法