DNN网络结构（一）

前言

之前看的DNN的网络结构都忘干净了，准备重新看看具体结构，再加上实现，还得学学pytorch。。

所以以下是对网络结构的思想、具体结构、实现细节的简述，备用随时回看。

内容包括:

ResNet 提出的残差结构，最大的好处是可以学习恒等映射，并且保证了梯度的传播，避免了深层网络训练时的梯度消失问题，使得训练超深网络成为可能，实验中ResNet可以训练 1001 层。

ResNet 的 motivation 是使得 Residual Block 的网络学习残差函数（和传统的网络直接学习输入输出的映射区别）：

${ \begin{aligned} F(x) &= H(x) - x \\ H(x) &= F(x) + x \\ \end{aligned} }$

一个 Residual Block 的 ${H(x)}$ 由输入 ${x}$ 和学习的残差函数 ${F(x)}$ 构成，进一步可以将一个 Residual Block 的函数表示成：

${ \mathbf{y} = \mathcal{F}(\mathbf{x},\{W_i\}) + \mathbf{x}. }$

如果 ${\mathcal{F(x)}}$ 的输出大小和 ${\mathbf{x}}$ 不一致，则可以使用一个线性变换矩阵(实际中就是1x1的卷积层)对 ${\mathbf{x}}$ 进行变换，如下：

${ \mathbf{y} = \mathcal{F}(\mathbf{x},\{W_i\}) + W_s \mathbf{x}. }$

注意的是：如果 ${\mathcal{F(x)}}$ 仅由一层FC层组成，那就可以整合成一个线性变换矩阵，所以尽量使用两层以上（ Basic Block 两层，BottleNeck 三层）。

从VGG的经验中遵循的两个设计要点：

ResNet 在线性层上的改变：

ResNet的 Basic Block 和 BottleNeck 结构如下图（BottleNeck 用于更深的网络，ResNet-50以上）：

Basic Block (左图) 和 BootleNeck (右图)

BasicBlock:

基本情况下（输入输出的通道数不变，大小也不变）：卷积层参数是 (3,1,1) ，所以 shortcut 部分直接是恒等映射就行，不需要1x1的卷积。
在需要变换大小、维度的情况下（同时是多个串联的ResBlock的第一个Block）：由第一个3x3卷积层变换通道和大小，第二个卷积层始终不变。而且 shortcut 部分需要加入1x1的卷积层保证输出大小和残差部分一致。此时 1x1 的卷积层的stride 设置的和第一个 3x3 卷积层一致。若要使得输入的大小减半，三个卷积层的参数可以设置为：(3,2,1); (3,1,1); (1,2,0)。
注意：第二个3x3卷积层不包括 ReLU，而是在相加之后再激活。

BottleNeck:

ResNet 参数设置：

不同层数ResNet配置

注意到Basic Block和BottleNeck 的relu 都是在 x + F(x) 之后的，针对这一点，提出了另外一篇论文[2]改进了残差结构。

针对 ResNet 中 ResBlock 的结构，文章[2] 进行了更多的探索，主要的结论有：

不同连接结构

一点总结：

保证有一条 clean path 给梯度流通比较好，(a)(b) 就不符合。
残差部分学习到的残差输出的区间应该是 ${\left[ - \infty, \infty \right]}$ ，所以残差最后不要加ReLU（残差输出就变成 ${\left[0, +\infty \right]}$ 了）。(c) 就不符合。
full pre-activation 的模型实验效果比baseline好，作者认为(d)的结构仅将 ReLU 前置，不能享受BN的益处，所以 propose (e) 结构。