逻辑回归
Sigmoid函数:
梯度:
。
梯度上升算法到达每个点后都会重新计算移动的方向,不断迭代移动,直到满足停止条件,停止条件可以是一个确定的迭代次数或是达到较小的误差。在迭代过程中,梯度总是选取最佳的移动方向。
利用该算法(梯度下降)进行求解优化问题:
权值Weights更新:weights=weights+alphadata.transpose()error 按误差方向调整权重(回归系数)。即可以写成:
增量是关于误差的一个函数。
随机梯度上升算法:
梯度上升算法每次更新都需要遍历整个数据集,如果数据量巨大,则耗时很大,复杂度高。改进方法:一次仅用户一个样本点来更新回归系数(随机梯度上升)。由于其在新样本到来时对分类器进行增量式更新,因而这是一个在线学习算法。
用代码来看两者的区别:
梯度上升:
for i in range(max_step):
h = sigmoid(data_mat * weights)
err = (label_mat - h)
weights = weights + alpha * data_mat.transpose() * err
return weights
用全局的误差来更新weights
随机梯度上升:
for i in range(n):
h = sigmoid(numpy.sum(data[i] * weights))
err = label[i] - h
weights = weights + data[i] * alpha * err
return weights
一个点只计算一次,遍历时使用当前点计算出的误差来调整本次的权值。
两者区别在计算误差的方式上。
其实怎么选取不重要,根据实验可以得到:随机选取和遍历每一个求得当前的误差,最后在于循环计算的次数,当次数趋向于一个合适的值时,误差稳定且较小,则此时分类即完成。
http://blog.csdn.net/qq_20945297/article/details/78552273
如果这不是一个凸优化问题,梯度下降势必会遇到局部最小(极小值)的情况
如何应对其局部最小的问题:
1、 以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数;这就是从多个不同的初始点开始搜索寻优,这样陷入不同的局部极小值,从而选取更可能接近全局最小的解;
2、 使用模拟退火:以一定的概率接受比当前解更差的结果,每步迭代中,接受次优解的概率要随着时间推移降低,保证算法能够收敛;
3、 使用随机梯度下降,这样计算出的梯度仍可能不为0,这样就可能跳出局部极小值。
我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan