特征缩放和学习速率选取
特征缩放
实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得Jθ的值收敛的很慢。
我们还是以房价预测为例子,我们使用2个特征。房子的尺寸(1~2000),房间的数量(1-5)。以这两个参数为横纵坐标,绘制代价函数的等高线图能看出整个图显得很扁,假如红色的轨迹即为函数收敛的过程,会发现此时函数收敛的非常慢。
为了解决这个问题,我们采用特征缩放。
所谓的特征缩放就是把所有的特征都缩放到一个相近的取值范围内。比如-1~1,或者-0.5~2,或者-2~05 等等,只要不超过-3 ~ 3这个范围,基本上都能够满足梯度下降算法
梯度下降算法中,最合适即每次跟着参数θ变化的时候,J(θ)的值都应该下降。
梯度下降算法每次迭代,都会受到学习速率α的影响。
如果α较小,则达到收敛所需要迭代的次数就会非常高;
如果α较大,则每次迭代可能不会减小代价函数的结果,甚至会超过局部最小值导致无法收敛,则会导致代价函数振荡。
文献中学习率选择方法
吴恩达教学中讲到:
α初始值位0.001, 不符合预期乘以3倍用0.003代替,不符合预期再用0.01替代,如此循环直至找到最合适的α。
http://blog.csdn.net/u012162613/article/details/44265967
http://blog.csdn.net/chenguolinblog/article/details/52138510
http://www.cnblogs.com/yjbjingcha/p/7094816.html
https://www.zhihu.com/question/54097634