对于样本数量额非常之多的情况,Batch Gradient Descent(批量梯度下降)算法会非常耗时,因为每次迭代都要便利所有样本,可选用Stochastic Gradient Descent 算法,需要注意外层循环Loop,因为只遍历一次样本,不见得会收敛。
随机梯度算法就可以用作在线学习了,但是注意随机梯度的结果并非完全收敛,而是在收敛结果处波动的,可能由非线性可分的样本引起来的:
可以有如下解决办法:
1. 动态更改学习速率a的大小,可以增大或者减小
2. 随机选样本进行学习
代码:
import numpyas np
__author__ ='liyan'
X =2 * np.random.rand(100, 1)
y =4 +3 * X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]
# print(X_b)
n_epochs =500
t0,t1 =5,50
m =100#100个样本
def learning_schedule(t):#学习率逐渐减少
return t0/(t+t1)
theta = np.random.randn(2,1)
for epochin range(n_epochs):
for iin range(m):#100条数据随机抽取一条
random_index = np.random.randint(m)# 随机返回0~99数
xi = X_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradients =1*xi.T.dot(xi.dot(theta)-yi)#梯度
#1/m*xi.T.dot(xi.dot(theta)-yi)
learning_rate = learning_schedule(epoch*m+i)#学习率逐渐减少
theta = theta-learning_rate*gradients
print(theta)
运行代码,计算得到的结果如下:
总结:
概念:随机梯度下降(sgd)
什么是随机梯度下降,怎么随机的呢?
其实就是在求梯度的时候,不再用所有的m个样本数据来计算,而是随机的选择一条数据来计算梯度!随机梯度下降的好处是什么?缺点是什么?
在求梯度的时候快,迭代次数有可能更多,最终可能落不到全局最优解上Mini-Batch GD是什么?
就是在求梯度的时候做了一个折中,不用所有的数据,而是随机选择一部分数据来求梯度!上面代码里面除了随机抽取一条数据来求解梯度,还随着迭代次数的增多,不断减小步长!learning_rate
为什么要不断的调整步长?
就是为了让越接近最优解的时候,调整的幅度越小,避免来回震荡!如果我们不人为的调小步长,会不会随着迭代的次数增多,调整的幅度自动减小?
调整的幅度取决于谁?却决于学习率和梯度,梯度事实上越接近最优解,梯度的绝对值越小