第一次打卡

线性回归
主要内容包括：

线性回归的基本要素
线性回归模型从零开始的实现
线性回归模型使用pytorch的简洁实现
线性回归的基本要素
模型
为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:

price=warea⋅area+wage⋅age+b
数据集
我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里，该数据集被称为训练数据集（training data set）或训练集（training set），一栋房屋被称为一个样本（sample），其真实售出价格叫作标签（label），用来预测标签的两个因素叫作特征（feature）。特征用来表征样本的特点。

损失函数
在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。它在评估索引为 i 的样本误差的表达式为

l(i)(w,b)=
1
2

(
ˆ
y
(i)−y(i))2,
L(w,b)=
1
n

n
∑
i=1 l(i)(w,b)=
1
n

n
∑
i=1
1
2

(w⊤x(i)+b−y(i))2.
优化函数 - 随机梯度下降
当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。它的算法很简单：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch）B，然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

(w,b)←(w,b)−
η
|B|

∑i∈B ∂(w,b)l(i)(w,b)
学习率: η代表在每次优化中，能够学习的步长的大小
批量大小: B是小批量计算中的批量大小batch size

总结一下，优化函数的有以下两个步骤：

(i)初始化模型参数，一般来说使用随机初始化；
(ii)我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。
softmax和分类模型
内容包含：

softmax回归的基本概念
如何获取Fashion-MNIST数据集和读取数据
softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
使用pytorch重新实现softmax回归模型
softmax的基本概念
分类问题
一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。
图像中的4像素分别记为x1,x2,x3,x4。
假设真实标签为狗、猫或者鸡，这些标签对应的离散值为y1,y2,y3。
我们通常使用离散的数值来表示类别，例如y1=1,y2=2,y3=3。

权重矢量
o1 =x1w11+x2w21+x3w31+x4w41+b1
o2 =x1w12+x2w22+x3w32+x4w42+b2
o3 =x1w13+x2w23+x3w33+x4w43+b3
神经网络图
下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。
Image Name

softmax回归是一个单层神经网络
既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值oi当作预测类别是i的置信度，并将值最大的输出所对应的类作为预测输出，即输出 argmaxi oi。例如，如果o1,o2,o3分别为0.1,10,0.1，由于o2最大，那么预测类别为2，其代表猫。

输出问题
直接使用输出层的输出有两个问题：
一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果o1=o3=103，那么输出值10却又表示图像类别为猫的概率很低。
另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

ˆ
y
1,
ˆ
y
2,
ˆ
y
3=softmax(o1,o2,o3)
其中

ˆ
y
1=
exp(o1)
∑
3
i=1
exp(oi)

,
ˆ
y
2=
exp(o2)
∑
3
i=1
exp(oi)

,
ˆ
y
3=
exp(o3)
∑
3
i=1
exp(oi)

.
容易看出
ˆ
y
1+
ˆ
y
2+
ˆ
y
3=1且0≤
ˆ
y
1,
ˆ
y
2,
ˆ
y
3≤1，因此
ˆ
y
1,
ˆ
y
2,
ˆ
y
3是一个合法的概率分布。这时候，如果
ˆ
y
2=0.8，不管
ˆ
y
1和
ˆ
y
3的值是多少，我们都知道图像类别为猫的概率是80%。此外，我们注意到

argmaxi oi= argmaxi
ˆ
y
i
因此softmax运算不改变预测类别输出。

计算效率
单样本矢量计算表达式
为了提高计算效率，我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中，假设softmax回归的权重和偏差参数分别为
W=[ w11 w12 w13 w21 w22 w23 w31 w32 w33 w41 w42 w43 ],b=[ b1 b2 b3 ],
设高和宽分别为2个像素的图像样本i的特征为

x(i)=[ x
(i)
1
x
(i)
2
x
(i)
3
x
(i)
4
],
输出层的输出为

o(i)=[ o
(i)
1
o
(i)
2
o
(i)
3
],
预测为狗、猫或鸡的概率分布为

ˆ
y
(i)=[
ˆ
y

(i)
1
ˆ
y

(i)
2
ˆ
y

(i)
3
].
softmax回归对样本i分类的矢量计算表达式为

o(i) =x(i)W+b,
ˆ
y
(i) =softmax(o(i)).
小批量矢量计算表达式
为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为n，输入个数（特征数）为d，输出个数（类别数）为q。设批量特征为X∈Rn×d。假设softmax回归的权重和偏差参数分别为W∈Rd×q和b∈R1×q。softmax回归的矢量计算表达式为
O =XW+b,
ˆ
Y
=softmax(O),
其中的加法运算使用了广播机制，O,
ˆ
Y
∈Rn×q且这两个矩阵的第i行分别为样本i的输出o(i)和概率分布
ˆ
y
(i)。

交叉熵损失函数
对于样本i，我们构造向量y(i)∈Rq ，使其第y(i)（样本i类别的离散数值）个元素为1，其余为0。这样我们的训练目标可以设为使预测概率分布
ˆ
y
(i)尽可能接近真实的标签概率分布y(i)。

平方损失估计
Loss=|
ˆ
y
(i)−y(i)|2/2
然而，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果y(i)=3，那么我们只需要
ˆ
y

(i)
3
比其他两个预测值
ˆ
y

(i)
1
和
ˆ
y

(i)
2
大就行了。即使
ˆ
y

(i)
3
值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如
ˆ
y

(i)
1
=
ˆ
y

(i)
2
=0.2比
ˆ
y

(i)
1
=0,
ˆ
y

(i)
2
=0.4的损失要小很多，虽然两者都有同样正确的分类预测结果。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵（cross entropy）是一个常用的衡量方法：

H(y(i),
ˆ
y
(i))=−
q
∑
j=1 y
(i)
j
log
ˆ
y

(i)
j
,
其中带下标的y
(i)
j
是向量y(i)中非0即1的元素，需要注意将它与样本i类别的离散数值，即不带下标的y(i)区分。在上式中，我们知道向量y(i)中只有第y(i)个元素y(i)y(i)为1，其余全为0，于是H(y(i),
ˆ
y
(i))=−log
ˆ
y
y(i)(i)。也就是说，交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。当然，遇到一个样本有多个标签时，例如图像里含有不止一个物体时，我们并不能做这一步简化。但即便对于这种情况，交叉熵同样只关心对图像中出现的物体类别的预测概率。

假设训练数据集的样本数为n，交叉熵损失函数定义为
ℓ(Θ)=
1
n

n
∑
i=1 H(y(i),
ˆ
y
(i)),
其中Θ代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成ℓ(Θ)=−(1/n)∑
n
i=1
log
ˆ
y

(i)
y(i)
。从另一个角度来看，我们知道最小化ℓ(Θ)等价于最大化exp(−nℓ(Θ))=∏
n
i=1
ˆ
y

(i)
y(i)
，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

模型训练和预测
在训练好softmax回归模型后，给定任一样本特征，就可以预测每个输出类别的概率。通常，我们把预测概率最大的类别作为输出类别。如果它与真实类别（标签）一致，说明这次预测是正确的。在3.6节的实验中，我们将使用准确率（accuracy）来评价模型的表现。它等于正确预测数量与总预测数量之比。

获取Fashion-MNIST训练集和读取数据
在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用，以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异，我们将使用一个图像内容更加复杂的数据集Fashion-MNIST[2]。

我这里我们会使用torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision主要由以下几部分构成：

torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
torchvision.utils: 其他的一些有用的方法。
多层感知机
多层感知机的基本知识
使用多层感知机图像分类的从零开始的实现
使用pytorch的简洁实现
多层感知机的基本知识
深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。

隐藏层
下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。

Image Name

表达公式
具体来说，给定一个小批量样本 X∈Rn×dX∈Rn×d ，其批量大小为 nn ，输入个数为 dd 。假设多层感知机只有一个隐藏层，其中隐藏单元个数为 hh 。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 HH ，有 H∈Rn×hH∈Rn×h 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 Wh∈Rd×hWh∈Rd×h 和 bh∈R1×hbh∈R1×h ，输出层的权重和偏差参数分别为 Wo∈Rh×qWo∈Rh×q 和 bo∈R1×qbo∈R1×q 。

我们先来看一种含单隐藏层的多层感知机的设计。其输出 O∈Rn×qO∈Rn×q 的计算为

HO=XWh+bh,=HWo+bo,
H=XWh+bh,O=HWo+bo,

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo.
O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo.

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 WhWoWhWo ，偏差参数为 bhWo+bobhWo+bo 。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

激活函数
上述问题的根源在于全连接层只是对数据做仿射变换（affine transformation），而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。

下面我们介绍几个常用的激活函数：

ReLU函数
ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素 xx ，该函数定义为

ReLU(x)=max(x,0).
ReLU(x)=max(x,0).

可以看出，ReLU函数只保留正数元素，并将负数元素清零。为了直观地观察这一非线性变换，我们先定义一个绘图函数xyplot。

第一次打卡

第一次打卡

相关阅读更多精彩内容

友情链接更多精彩内容