Pytorch深度学习-梯度下降02

之前采用的穷举法来求解最优的w值，但是当数据量大维度多的时候，会导致训练性能急剧下降
而梯度下降算法的原理：迭代找到目标函数的最小值，或者收敛到最小值

梯度的概念：

1.在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
2.在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向
3.α在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过α来控制每一步走的距离

随机梯度下降算法：

之前的梯度下降可能会产生鞍点问题，当训练遇到梯度为0的情况时w=w-a*gradient(x_data，y_date)，w无法继续向前迭代，有可能会错过最优值，故可以采取随机梯度下降算法，将每一个样本的梯度代入进行迭代，尽可能的将w送到最优处。

本次使用的模型为简单线性回归模型：y = w*x

1.定义线性回归模型

#定义模型
def forward(x):
    return w*x
#初始随机猜测一个权值w=1.0
w=-1.0

2.计算损失函数

#定义单次成本计算函数
def loss(x,y):
    y_pred = forward(x)
    return (y-y_pred) ** 2

3.数据集

#定义 DataSet-实际w==2
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]

4.定义梯度计算公式

#定义随机梯度计算公式
def gradient(x, y):
    return 2*x*(x*w-y)

5.使用梯度下降算法进行训练

#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次，每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
    print("epoch=", epoch)
    for x, y in zip(x_date, y_date):
        loss_val = loss(x, y)
        # 每一次训练用的梯度都是一对样本对的梯度，也就是某点的梯度
        w = w-0.01*gradient(x, y)   #学习率定义为0.01
        print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
    #打印输出是第几次训练，训练权值和训练的损失函数
    w_list.append(w)
    mse_list.append(loss_val)
    print("\tw=", w, "loss=", loss_val)

6.完整代码及训练结果

# -*- codeing = utf-8 -*-
'''
梯度下降算法存在的问题：
    1.陷入局部最优
    2.解决鞍点问题
'''
#采用随机梯度下降算法---计算每一点样本对的梯度来进行w权值的更新
#优点: 时间复杂度高，但是结果比较准确
#存在的缺点: 由于本次的训练w值来源于上一个样本的梯度训练，故由于前后关系，无法进行并行计算的方式进行梯度下降训练
'''
当计算平均梯度遇到鞍点(梯度为0点,即gradient == 0)时，w=w-a*gradient无法前进，此时某一随机样本的梯度可能不是鞍点，可能继续将w向前
'''
import matplotlib.pyplot as plt

#训练数据集---实际w权值=2.0
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]
#初始随机猜测一个权值w=1.0
w=-1.0
#定义线性回归模型
def forward(x):
    return x*w
#定义单次成本计算函数
def loss(x,y):
    y_pred = forward(x)
    return (y-y_pred) ** 2
w_list = []
mse_list = []
#定义随机梯度计算公式
def gradient(x, y):
    return 2*x*(x*w-y)
print("predict before training:", "w=", w, forward(4))

#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次，每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
    print("epoch=", epoch)
    for x, y in zip(x_date, y_date):
        loss_val = loss(x, y)
        # 每一次训练用的梯度都是一对样本对的梯度，也就是某点的梯度
        w = w-0.01*gradient(x, y)   #学习率定义为0.01
        print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
    #打印输出是第几次训练，训练权值和训练的损失函数
    w_list.append(w)
    mse_list.append(loss_val)
    print("\tw=", w, "loss=", loss_val)

print("predict completed:", "w=", w, forward(4))
plt.plot(w_list, mse_list)
plt.ylabel("mean Square error")
plt.xlabel("w")
plt.show()

结果如下：

image.png

Pytorch深度学习-梯度下降02

Pytorch深度学习-梯度下降02

梯度的概念：

随机梯度下降算法：

本次使用的模型为简单线性回归模型：y = w*x

1.定义线性回归模型

2.计算损失函数

3.数据集

4.定义梯度计算公式

5.使用梯度下降算法进行训练

6.完整代码及训练结果

结果如下：

相关阅读更多精彩内容

友情链接更多精彩内容