数据预处理-数据标准化

《Python数据分析与数据化运营 第2版》读书笔记

一、数据标准化定义及作用

由于不同特征数量级及量纲不同,如果直接使用会影响建模准确性,因此需要对数据先进行标准化处理。
数据标准化的目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。

二、数据标准化的方法

  1. 实现中心化和正态分布的Z-Score
    公式:x' = ( x - mean ) / std
    缺点:Z-Score方法是一种中心化方法,会改变原有数据的分布结构,不适合对稀疏数据做处理。

  2. Max-Min标准化方法
    公式:x' = ( x - min ) / ( max - min ),其中min和max为x所在列的最小值和最大值。
    得到的数据会完全落入[0, 1]区间内

  3. 最大值绝对值标准化(MaxAbs)
    公式:x' = x / | max |,其中max为x所在列的最大值。
    得到的数据会完全落入[-1, 1]区间内

  4. RobustScaler针对离群点做标准化处理

三、不同标准化方法数据展现

原始数据与不同标准化方法标准化后的数据
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。