【深度学习实践】01. 线性回归

线性模型既是机器学习中最基础的学习模型，也是深度神经网络中的神经元基础。而线性回归是借助线性模型解决一个或者多个自变量与因变量之间的关系的问题。在机器学习领域，大多数任务通常与预测有关。当我们预测一个数值时，就会涉及到回归问题。当然，并不是所有的预测都是回归问题，还有分类。
线性模型的一般表示如下（本质就是对 n 维输入的加权和，外加偏差）：
$\hat{y} = w_1 x_1 + ... + w_d x_d + b.$
拓展到矩阵空间的形式如下：
${\hat{\mathbf{y}}} = \mathbf{X} \mathbf{w} + b$

线性回归的目标是找到一组权重向量 w 和偏置b：当给定从 $\mathbf{X}$ 的同分布中取样的新样本特征时，这组权重向量和偏置能够使新样本预测标签的误差尽可能小。

线性模型可以看做单层的神经网络

衡量预测的质量

既然有了预测模型（线性模型），我们就可以通过线性模型进行预测，那么接踵而至的问题就是如何衡量预测的质量。预测质量即为真实值和预估值的差距，我们通常将预测的质量称为损失函数。在回归类问题中，我们的损失函数多使用 MSE（平方误差）：
$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$

除了 MSE，深度学习中常用的损失函数还有很多，MAE（L1），CrossEntropyLoss，SmoothL1Loss等，Loss Functions

MSE 的缺点是对于离群点过于敏感，MAE的缺点是中心点不可导，不方便求解

由于样本和标签是已知的既定事实，所以损失函数是关于模型参数 $b, \mathbf{w}$ 的函数，常数 $\frac {1}{2}$ 不会带来本质上的差别，但在求导时会和平方项相互抵消。为了度量模型在整个数据集上的质量，我们通常计算在训练集中n个样本的损失均值：
$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

在训练模型时，我们希望寻找一组参数 $b, \mathbf{w}$ ，这组参数能最小化在所有训练样本上的总损失。如下式：
$\mathbf{w}^*, b^* = \operatorname*{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).$

梯度下降

梯度下降是通过计算模型基于数据集的损失函数（计算其反向梯度，也就是函数值下降最快的方向，梯度方向为函数值增长最快的方向，而负梯度为函数值减少最快的方向），通过逐次更新（所有参数同步更新）从而降低损失值的过程。在许多任务中，梯度下降都是效果较好的优化算法，它几乎可以优化所有深度学习模型。其中有一点需要注意的，通常深度学习的使用场景，数据集的量级都非常之大，动辄上G的样本，如果模型一次遍历整个数据集求出损失均值，然后进行更新，计算耗时太长，所以我们在实际的使用中，通常使用梯度下降的变体--小批量随机梯度下降（minibatch stochastic gradient descent），顾名思义，每次随机抽取一小批样本用来计算和更新。

在每次迭代中，我们首先随机抽样一个小批量 $\mathcal{B}$ ，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。最后，我们将梯度乘以一个预先确定的正数 $\eta$ ，并从当前参数的值中减掉。
我们用下面的数学公式来表示这一更新过程（ $\partial$ 表示偏导数）：
$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).$

$|\mathcal{B}|$ 表示每个小批量中的样本数，这也称为批量大小（batch size）。 $\eta$ 表示学习率（learning rate）。批量大小和学习率的值通常是手动预先指定，而不是通过模型训练得到的。这些可以调整但不在训练过程中更新的参数称为超参数（hyperparameter）。调参（hyperparameter tuning）是选择超参数的过程。超参数通常是我们根据训练迭代结果来调整的，而训练迭代结果是在独立的验证数据集（validation dataset）上评估得到的。

批量大小 和 学习率 都是调参玄学中重要的组成部分，批量大小决定了每一个批次送入模型训练的数据集的规模，过大的批量大小容易导致内存爆满（尤其是在显存较小的GPU上进行训练），过小的批量大小则无法充分利用GPU的矩阵并行计算的能力（GPU的设计就是为了进行并行的计算，其中包含成百上千的并行计算单元）。而学习率也是如此，过大的学习率会导致迈的步子过大，损失函数无法迈入山谷，而学习率过小则可能在平原处浪费时间，导致模型需要很久的训练过程。

Pytorch 实现

import numpy as np
import torch
from torch.utils import data
from torch import nn

def synthetic_data(w, b, num_examples):
    """构造一个线性模型+随机噪声的数据集"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, torch.reshape(y, (-1, 1))

def load_array(data_arrays, batch_size, is_train=True):
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
batch_size = 10
data_iter = load_array((features, labels), batch_size)

# 定义线性模型
net = nn.Sequential(nn.Linear(2, 1))
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)

loss = nn.MSELoss()
trainer = torch.optim.SGD(net.parameters(), lr=0.03)

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

【深度学习实践】01. 线性回归