之前采用的穷举法来求解最优的w值,但是当数据量大维度多的时候,会导致训练性能急剧下降
而梯度下降算法的原理:迭代找到目标函数的最小值,或者收敛到最小值
梯度的概念:
1.在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
2.在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向
3.α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离
随机梯度下降算法:
之前的梯度下降可能会产生鞍点问题,当训练遇到梯度为0的情况时w=w-a*gradient(x_data,y_date),w无法继续向前迭代,有可能会错过最优值,故可以采取随机梯度下降算法,将每一个样本的梯度代入进行迭代,尽可能的将w送到最优处。
本次使用的模型为简单线性回归模型:y = w*x
1.定义线性回归模型
#定义模型
def forward(x):
return w*x
#初始随机猜测一个权值w=1.0
w=-1.0
2.计算损失函数
#定义单次成本计算函数
def loss(x,y):
y_pred = forward(x)
return (y-y_pred) ** 2
3.数据集
#定义 DataSet-实际w==2
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]
4.定义梯度计算公式
#定义随机梯度计算公式
def gradient(x, y):
return 2*x*(x*w-y)
5.使用梯度下降算法进行训练
#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次,每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
print("epoch=", epoch)
for x, y in zip(x_date, y_date):
loss_val = loss(x, y)
# 每一次训练用的梯度都是一对样本对的梯度,也就是某点的梯度
w = w-0.01*gradient(x, y) #学习率定义为0.01
print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
#打印输出是第几次训练,训练权值和训练的损失函数
w_list.append(w)
mse_list.append(loss_val)
print("\tw=", w, "loss=", loss_val)
6.完整代码及训练结果
# -*- codeing = utf-8 -*-
'''
梯度下降算法存在的问题:
1.陷入局部最优
2.解决鞍点问题
'''
#采用随机梯度下降算法---计算每一点样本对的梯度来进行w权值的更新
#优点: 时间复杂度高,但是结果比较准确
#存在的缺点: 由于本次的训练w值来源于上一个样本的梯度训练,故由于前后关系,无法进行并行计算的方式进行梯度下降训练
'''
当计算平均梯度遇到鞍点(梯度为0点,即gradient == 0)时,w=w-a*gradient无法前进,此时某一随机样本的梯度可能不是鞍点,可能继续将w向前
'''
import matplotlib.pyplot as plt
#训练数据集---实际w权值=2.0
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]
#初始随机猜测一个权值w=1.0
w=-1.0
#定义线性回归模型
def forward(x):
return x*w
#定义单次成本计算函数
def loss(x,y):
y_pred = forward(x)
return (y-y_pred) ** 2
w_list = []
mse_list = []
#定义随机梯度计算公式
def gradient(x, y):
return 2*x*(x*w-y)
print("predict before training:", "w=", w, forward(4))
#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次,每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
print("epoch=", epoch)
for x, y in zip(x_date, y_date):
loss_val = loss(x, y)
# 每一次训练用的梯度都是一对样本对的梯度,也就是某点的梯度
w = w-0.01*gradient(x, y) #学习率定义为0.01
print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
#打印输出是第几次训练,训练权值和训练的损失函数
w_list.append(w)
mse_list.append(loss_val)
print("\tw=", w, "loss=", loss_val)
print("predict completed:", "w=", w, forward(4))
plt.plot(w_list, mse_list)
plt.ylabel("mean Square error")
plt.xlabel("w")
plt.show()