特征缩放:
特征缩放:特征缩放是用来标准化数据特征的范围。
特征缩放还可以使机器学习算法工作的更好。
比如在K近邻算法中,分类器主要是计算两点之间的欧几里得距离,如果一个特征比其它的特征有更大的范围值,那么距离将会被这个特征值所主导。
在梯度下降法中,当某个特征值较大的时候会出现类似于 图一的代价函数轮廓图:
这样的情况下,梯度下降的过程中会来回震荡,使得需要更多次的迭代才能到达局部最优点。
而如果对特征进行缩放(Feature Scaling)那么,迭代过程就可以像图二一样,更为快速的收敛。
因此每个特征应该被归一化,比如将取值范围处理为0到1之间。
特征缩放的一些方法
调节比例(Rescaling)
这种方法是将数据的特征缩放到[0,1]或[-1,1]之间。缩放到什么范围取决于数据的性质。对于这种方法的公式如下:
0均值标准化(Z-score standardization)
0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集
公式如下:
μ为x均值
σ为标准差也被称为标准偏差
均值归一化(Mean normalization)
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
S = Xmax - Xmin