用单因子线性回归演示梯度下降和反向传播

反向传播示例

一、单层网络的梯度下降和反向传播

单因子线性模型

线性模型定义

$\hat{y}_i=ax_i+b$

损失函数
$Loss = \frac{1}{2}\sum_i^n(\hat{y}_i-y_i)^2=\frac{1}{2}\sum_i^n(ax_i+b-y_i)^2$
损失函数求偏导(偏导代入a的值即为梯度)

$\frac{\partial Loss}{\partial a} =\frac{\partial \frac{1}{2}\sum_i^n(ax_i+b-y_i)^2}{\partial a}=\sum_i^n(ax_i+b-y_i)x_i \\ \frac{\partial Loss}{\partial b} =\frac{\partial \frac{1}{2}\sum_i^n(ax_i+b-y_i)^2}{\partial b}=\sum_i^n(ax_i+b-y_i)$

更新参数

定义学习率lr，代入梯度值，得到a更新后的值
$a=a-lr*\frac{\partial Loss}{\partial a}\\$

代码示例

构建数据集

import matplotlib.pyplot as plt
import torch
from torch.utils.data import TensorDataset, DataLoader

x = torch.arange(1, 100, 2)
noise = torch.randn(50)
y = x * 2 + 10
# y = y + noise

t_data_set = TensorDataset(x, y)

dl = DataLoader(t_data_set, batch_size=5)

a = torch.tensor(20.0, requires_grad=True)
b = torch.tensor(30.0, requires_grad=True)

epoch 循环

for epoch in range(100):
    all_loss = 0
    for xt, yt in dl:
        # 损失函数
        y_pred = a * xt + b
        loss = torch.sum((y_pred - yt) ** 2) / 2
        all_loss += loss.data
        # 梯度归零
        if a.grad:
            a.grad.data.zero_()
            b.grad.data.zero_()
        # 反向传播      
        loss.backward()
        # 更新数据
        a.data = a.data - a.grad.data * 1e-4
        b.data = b.data - b.grad.data * 1e-3

多层网络反向传播

单因子多层网络梯度下降和反向传播

多层线性模型定义
$复合函数：\hat{y}_i=a_2(a_1x_i+b_1)+b_2\\ 第一层：g(x_i) = a_1x_i+b_1\\ 第二层：f(x_i) = a_2g(x_i)+b_2\\ 需要注意的是，在这里需要把x_i理解为常量，即g(x_1)和g(x_2)是针对于a_1和b_1的不同的方程$
损失函数
$Loss=\frac{1}{2}\sum_i^n(\hat{y}_i-y_i)^2=\frac{1}{2}\sum_i^n(a_2g(x_i)+b_2-y_i)^2=\frac{1}{2}\sum_i^n(a_2(a_1x_i+b_1)+b_2-y_i)^2$
先对a2、b2求导
$\frac{\partial Loss}{\partial a_1} =\frac{\partial \frac{1}{2}\sum_i^n(a_2g(x_i)+b_2-y_i)^2}{\partial a_2}=\sum_i^n(a_2g(x_i)+b_2-y_i)g(x_i)$
$\frac{\partial Loss}{\partial b} =\frac{\partial \frac{1}{2}\sum_i^n(a_2g(x_i)+b_2-y_i)^2}{\partial b_2}=\sum_i^n(a_2g(x_i)+b_2-y_i)$
链式法则说明
$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x}\\ 若函数\mu=\varphi(t),\nu=\psi(t)在点t可导，z=f(\mu, \nu),在点(\mu, \nu)处偏导连续\\ 则复合函数z=f(\varphi(t),\psi(t))在点t可导，且有链式法则:\\ \frac{dz}{dt} =\frac{\partial z}{\partial \mu}\frac{\partial \mu}{\partial t}+\frac{\partial z}{\partial \nu}\frac{\partial \nu}{\partial t}$
基于链式法则对a1、b1求导
$Loss = \frac{1}{2}\sum_i^n(f(g(x_i))-y_i)^2\\ \frac{\partial Loss}{\partial a_1}=\sum_i^n[(f(g(x_i))-y_i)\frac{\partial f(g(x_i))}{\partial g(x_i)}\frac{\partial g(xi)}{\partial a_1}]=\sum_i^n(f(g(x_i))-y_i)a_2x_i\\ \frac{\partial Loss}{\partial b_1}=\sum_i^n[(f(g(x_i))-y_i)\frac{\partial f(g(x_i))}{\partial g(x_i)}\frac{\partial g(xi)}{\partial b_1}]=\sum_i^n(f(g(x_i))-y_i)a_2$