数据清洗对于缺失值的常用插补法

在数据清洗中,处理缺失值就像“猜谜游戏”,而插补法就是根据已知线索(数据点)合理猜测缺失值的方法。以下是几种常用插补法的通俗解析:


1. 线性插补:两点连线的“直尺”

  • 原理:在已知的两个点之间画一条直线,用这条直线上的值填补缺失点。
    例如:已知第1天温度10℃,第3天20℃,第2天的温度按直线增长估算为15℃。

  • 公式:若已知点 ((x_1, y_1)) 和 ((x_2, y_2)),则 (x) 处的插值为:

    1747040026445.png

  • 特点

    • 简单快速,适合数据变化平缓的场景。
    • ❌ 假设数据是线性增长,可能不符合实际复杂趋势。

2. 多项式插补:过山车式的“曲线拟合”

  • 原理:构造一条经过所有已知点的光滑曲线(多项式),用曲线上的值填补缺失点。
    例如:用抛物线(二次多项式)连接三个点,或更高阶曲线通过更多点。
  • 拉格朗日法
    • 为每个点设计一个“专属基函数”,组合后形成唯一多项式。
    • 公式复杂但直观,适合理论理解。
  • 牛顿法
    • 用“差商”逐步构建多项式,计算更高效,方便动态添加新点。
    • 结果与拉格朗日法相同,但计算方式不同。
  • 特点
    • 灵活适应复杂趋势,完美穿过所有已知点。
    • ❌ 点数多时,多项式次数高,容易“过山车式震荡”(过拟合)。
    • ❌ 对噪声敏感,可能放大数据中的小波动。

3. 样条插值:乐高积木式的“分段拼接”

  • 原理:将数据区间分成多个小段,每段用低次多项式(如三次)连接,并保证拼接处平滑。
    例如:用多个三次曲线片段拼成整体曲线,每段连接处“无缝光滑”。
  • 三次样条
    • 每段是三次多项式,连接处一阶、二阶导数连续(平滑无棱角)。
    • 需要解方程组确定参数,计算较复杂但结果稳定。
  • 特点
    • 平衡灵活性与稳定性,避免高阶多项式震荡。
    • ✅ 适合数据点较多或有局部波动的场景(如股价、温度序列)。
    • ❌ 计算量大于线性插值,但通常比全局多项式更可靠。

如何选择?

  • 线性插补:数据简单、趋势接近直线,或追求速度(如实时处理)。
  • 多项式插补:严格经过所有点,且数据点少、趋势复杂(慎防过拟合)。
  • 样条插值:数据点多、需要平滑且避免震荡的场景(如自然现象建模)。

通俗比喻

  • 线性插补:用直尺连接两点,直接读取中间值。
  • 多项式插补:像用一根软铁丝弯曲穿过所有图钉(数据点),但铁丝可能甩来甩去。
  • 样条插值:像用多段柔韧的塑料条拼接,每段局部调整,整体平滑稳定。

根据数据特性选择合适的“工具”,才能在清洗时既填好坑,又不“创造”虚假信息!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容