Problem:
1.选择偏差 selection bias
2.识别不足 undervalue
3.过度识别 overvalue
Solution:
- 删除缺失值:最简单的方法是删除包含缺失值的行或列。但这样做可能会导致信息损失,特别是在数据量不大的情况下。对于缺失值比例很小的情况,删除是可行的选择。
- 填充缺失值:一种常见的方法是填充缺失值,例如用均值、中位数、众数或者邻近数值代替。对于连续型数据,均值或中位数填充是常用方法。对于分类变量,可以用众数填充。另外,也可以使用插值法,例如线性插值或多项式插值来估算缺失值。
- 使用模型填充:基于现有的数据,使用模型预测缺失值。例如,可以使用回归模型或聚类模型来填补缺失值。
- 综合方法:结合多种技术来处理缺失值。例如,在填充缺失值之前,可以进行数据探索性分析,以便更好地了解数据的特征和结构。
-
处理缺失值的专用工具:一些专门的数据分析软件(如Python中的pandas、R语言等)提供了许多用于处理缺失值的工具和函数,可以更便捷地进行缺失值处理。
==. missing value
=0 include missing value
<. exclude missing observations
!=. exclude missing observations
Tab var1 var2,column —— 计算占列的比例
Tab var1 var2,row —— 计算占行的比例
当数据的均值和中位数比较大的时候,取ln