数字类型的各特征取值尺度范围可能不同,不同特征的取值范围可能不同,变化程度可能不同,归一化化会规避掉这种情况,使各特征都统一到一个大致相同的区间内。
常用的特征归一化方法有,线性函数归一化(Min-Max Scaling)、零均值归一化(Z-score Normalization)
通过梯度下降法求解的模型通常是需要归一化的,如线性回归、逻辑回归、支持向量机、神经网络等;但对于决策树模型则并不适用,决策树模型在分裂节点时,考虑的是数据集关于X的信息增益比,而信息增益比与特征是否经过归一化无关,因为归一化不会改变数据在特征X上的信息增益。