《Python数据分析与数据化运营 第2版》读书笔记
一、数据标准化定义及作用
由于不同特征数量级及量纲不同,如果直接使用会影响建模准确性,因此需要对数据先进行标准化处理。
数据标准化的目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。
二、数据标准化的方法
实现中心化和正态分布的Z-Score
公式:x' = ( x - mean ) / std
缺点:Z-Score方法是一种中心化方法,会改变原有数据的分布结构,不适合对稀疏数据做处理。Max-Min标准化方法
公式:x' = ( x - min ) / ( max - min ),其中min和max为x所在列的最小值和最大值。
得到的数据会完全落入[0, 1]区间内最大值绝对值标准化(MaxAbs)
公式:x' = x / | max |,其中max为x所在列的最大值。
得到的数据会完全落入[-1, 1]区间内RobustScaler针对离群点做标准化处理
三、不同标准化方法数据展现
原始数据与不同标准化方法标准化后的数据