数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
为什么需要归一化
假设我们现在有一组样本数据,我们需要拟合的目标函数如下:其中X1和X2为样本中两个特征。
-
当X1和X2数值相差过大时,如下图:
-
当X1和X2数值相差很小时,如下图:
由以上图片我们可以看出,当两个特征数值相差过大时,代价函数的轮廓是扁长的,梯度下降的过程曲折且耗时。当两个特征数值相差不大时,代价函数的轮廓会是偏圆的,梯度下降过程更加笔直且收敛速度更快。
常见的归一化方法
-
Standardization
Standardization又称为Z-score normalization,量化后的特征将服从标准正态分布: -
Min-Max Scaling
Min-Max Scaling又称为Min-Max normalization, 特征量化的公式为:
参考资料:
1.https://blog.csdn.net/leiting_imecas/article/details/54986045
2.李宏毅机器学习视频