在数据清洗中,处理缺失值就像“猜谜游戏”,而插补法就是根据已知线索(数据点)合理猜测缺失值的方法。以下是几种常用插补法的通俗解析:
1. 线性插补:两点连线的“直尺”
原理:在已知的两个点之间画一条直线,用这条直线上的值填补缺失点。
例如:已知第1天温度10℃,第3天20℃,第2天的温度按直线增长估算为15℃。-
公式:若已知点 ((x_1, y_1)) 和 ((x_2, y_2)),则 (x) 处的插值为:
1747040026445.png -
特点:
- ✅ 简单快速,适合数据变化平缓的场景。
- ❌ 假设数据是线性增长,可能不符合实际复杂趋势。
2. 多项式插补:过山车式的“曲线拟合”
-
原理:构造一条经过所有已知点的光滑曲线(多项式),用曲线上的值填补缺失点。
例如:用抛物线(二次多项式)连接三个点,或更高阶曲线通过更多点。 -
拉格朗日法:
- 为每个点设计一个“专属基函数”,组合后形成唯一多项式。
- 公式复杂但直观,适合理论理解。
-
牛顿法:
- 用“差商”逐步构建多项式,计算更高效,方便动态添加新点。
- 结果与拉格朗日法相同,但计算方式不同。
-
特点:
- ✅ 灵活适应复杂趋势,完美穿过所有已知点。
- ❌ 点数多时,多项式次数高,容易“过山车式震荡”(过拟合)。
- ❌ 对噪声敏感,可能放大数据中的小波动。
3. 样条插值:乐高积木式的“分段拼接”
-
原理:将数据区间分成多个小段,每段用低次多项式(如三次)连接,并保证拼接处平滑。
例如:用多个三次曲线片段拼成整体曲线,每段连接处“无缝光滑”。 -
三次样条:
- 每段是三次多项式,连接处一阶、二阶导数连续(平滑无棱角)。
- 需要解方程组确定参数,计算较复杂但结果稳定。
-
特点:
- ✅ 平衡灵活性与稳定性,避免高阶多项式震荡。
- ✅ 适合数据点较多或有局部波动的场景(如股价、温度序列)。
- ❌ 计算量大于线性插值,但通常比全局多项式更可靠。
如何选择?
- 线性插补:数据简单、趋势接近直线,或追求速度(如实时处理)。
- 多项式插补:严格经过所有点,且数据点少、趋势复杂(慎防过拟合)。
- 样条插值:数据点多、需要平滑且避免震荡的场景(如自然现象建模)。
通俗比喻
- 线性插补:用直尺连接两点,直接读取中间值。
- 多项式插补:像用一根软铁丝弯曲穿过所有图钉(数据点),但铁丝可能甩来甩去。
- 样条插值:像用多段柔韧的塑料条拼接,每段局部调整,整体平滑稳定。
根据数据特性选择合适的“工具”,才能在清洗时既填好坑,又不“创造”虚假信息!