Pytorch深度学习-梯度下降02

之前采用的穷举法来求解最优的w值,但是当数据量大维度多的时候,会导致训练性能急剧下降
而梯度下降算法的原理:迭代找到目标函数的最小值,或者收敛到最小值

梯度的概念:

1.在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
2.在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向
3.α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离

随机梯度下降算法:

之前的梯度下降可能会产生鞍点问题,当训练遇到梯度为0的情况时w=w-a*gradient(x_data,y_date),w无法继续向前迭代,有可能会错过最优值,故可以采取随机梯度下降算法,将每一个样本的梯度代入进行迭代,尽可能的将w送到最优处。

本次使用的模型为简单线性回归模型:y = w*x

1.定义线性回归模型

#定义模型
def forward(x):
    return w*x
#初始随机猜测一个权值w=1.0
w=-1.0

2.计算损失函数

#定义单次成本计算函数
def loss(x,y):
    y_pred = forward(x)
    return (y-y_pred) ** 2

3.数据集

#定义 DataSet-实际w==2
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]

4.定义梯度计算公式

#定义随机梯度计算公式
def gradient(x, y):
    return 2*x*(x*w-y)

5.使用梯度下降算法进行训练

#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次,每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
    print("epoch=", epoch)
    for x, y in zip(x_date, y_date):
        loss_val = loss(x, y)
        # 每一次训练用的梯度都是一对样本对的梯度,也就是某点的梯度
        w = w-0.01*gradient(x, y)   #学习率定义为0.01
        print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
    #打印输出是第几次训练,训练权值和训练的损失函数
    w_list.append(w)
    mse_list.append(loss_val)
    print("\tw=", w, "loss=", loss_val)

6.完整代码及训练结果

# -*- codeing = utf-8 -*-
'''
梯度下降算法存在的问题:
    1.陷入局部最优
    2.解决鞍点问题
'''
#采用随机梯度下降算法---计算每一点样本对的梯度来进行w权值的更新
#优点: 时间复杂度高,但是结果比较准确
#存在的缺点: 由于本次的训练w值来源于上一个样本的梯度训练,故由于前后关系,无法进行并行计算的方式进行梯度下降训练
'''
当计算平均梯度遇到鞍点(梯度为0点,即gradient == 0)时,w=w-a*gradient无法前进,此时某一随机样本的梯度可能不是鞍点,可能继续将w向前
'''
import matplotlib.pyplot as plt

#训练数据集---实际w权值=2.0
x_date = [1.0,2.0,3.0]
y_date = [2.0,4.0,6.0]
#初始随机猜测一个权值w=1.0
w=-1.0
#定义线性回归模型
def forward(x):
    return x*w
#定义单次成本计算函数
def loss(x,y):
    y_pred = forward(x)
    return (y-y_pred) ** 2
w_list = []
mse_list = []
#定义随机梯度计算公式
def gradient(x, y):
    return 2*x*(x*w-y)
print("predict before training:", "w=", w, forward(4))

#通过梯度下降算法来训练模型---设定为1-100次:左闭右开区间
#拿所有样本对反复训练100次,每一次都需要训练所有的样本对---梯度为样本点的梯度
for epoch in range(1, 100):
    print("epoch=", epoch)
    for x, y in zip(x_date, y_date):
        loss_val = loss(x, y)
        # 每一次训练用的梯度都是一对样本对的梯度,也就是某点的梯度
        w = w-0.01*gradient(x, y)   #学习率定义为0.01
        print("\tx=", x, "y=", y, "grad=", gradient(x, y),"w=", w)
    #打印输出是第几次训练,训练权值和训练的损失函数
    w_list.append(w)
    mse_list.append(loss_val)
    print("\tw=", w, "loss=", loss_val)

print("predict completed:", "w=", w, forward(4))
plt.plot(w_list, mse_list)
plt.ylabel("mean Square error")
plt.xlabel("w")
plt.show()



结果如下:
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容