特征归一化
在基于梯度下降的算法中,使用特征归一化方法将特征统一量纲,能够提高模型收敛速度和最终的模型精度。
特征归一化方法
线性归一化将特征线性映射到 [0, 1] 区间上,零均值归一化假设特征分布是正态分布,通过方差和均值,将特征映射到标准正态分布上。
-
Min-Max Scaling(线性归一化)
-
Z-Score Normalization(零均值归一化)
为什么要进行特征归一化
简书对LaTeX支持太不友好了…而且我又挺懒的……于是,手写公式上传,错误欢迎指正。
在使用梯度下降更新参数的算法中,不进行归一化会导致在不同参数上具有不同的学习速率。上图中,w[s] 的学习速率相当于 w[t] 的100倍。而我们知道,过大的学习速率会导致参数在最优解附近震荡,无法进一步降低损失,不使用归一化方法处理输入数据,会导致模型不能更好的拟合。