神经网络与深度学习WU-week4深层神经网络

1. 引言

由浅到深的神经网络。

由浅到深的神经网络示意图

在实际应用中，是无法事先知道神经网络需要几层的，可以将层数当作超参数，通过交叉验证来确定需要几层。

符号标法与之前相同，不同的是多了一个表示层数的符号 $L$ 。如下图。

深（四）层神经网络及符号示意图

2. 正向传播

2.1 一个样本

与单隐层类似，可以得到如下的前向传播公式

$\begin{array}{l}{z^{[1]}=W^{[1]} a^{[0]}+b^{[1]}} \\ {a^{[1]}=g^{[1]}\left(z^{[1]}\right)} \\ {z^{[2]}=W^{[2]} a^{[1]}+b^{[2]}} \\ {a^{[2]}=g^{[2]}(z^{[2]})} \\ ...... \\ {z^{[4]}=W^{[4]} a^{[3]}+b^{[4]}} \\ {a^{[4]}=g^{[4]}(z^{[4]})} \end{array}$

2.2 $m$ 个样本的训练集

$\begin{array}{l}{Z^{[1]}=W^{[1]} A^{[0]}+b^{[1]}} \\ {A^{[1]}=g^{[1]}\left(Z^{[1]}\right)} \\ {Z^{[2]}=W^{[2]} A^{[1]}+b^{[2]}} \\ {A^{[2]}=g^{[2]}(Z^{[2]})} \\ ...... \\ {Z^{[4]}=W^{[4]} A^{[3]}+b^{[4]}} \\ {a^{[4]}=g^{[4]}(z^{[4]})} \end{array}$
所以无论是单样本还是训练集，都可以写成：

for i=1 to m:
$\begin{array}{l}{Z^{[i]}=W^{[i]} A^{[i-1]}+b^{[i]}} \\ {A^{[i]}=g^{[i]}\left(Z^{[i]}\right)} i\end{array}$

2.3 矩阵维数检查

$\color {red} {Tips}$ : 要Debug程序，就要仔细系统的思考矩阵的维数！！！
在向量化过程不会改变维数的参数是 $W,b$ .
$W^{[i]}$ 的维数是 $(n^{[i]},n^{[i-1]})$ ， $b^{[i]}$ 的维数是 $(b^{[i]},1)$ 。函数的导数与函数有相同的维数，所以 $\mathrm{d}W^{[i]}$ 的维数与 $W^{[i]}$ 的维数相同也是 $(n^{[i]},n^{[i-1]})$ 。所以 $\mathrm{d}b^{[i]}$ 的维数与 $b^{[i]}$ 的维数相同也是 $(n^{[i]},1)$ 。该维数在多个样本的向量化过程中不会发生变化，即与样本个数无关。
在向量化过程会改变维数的参数是 $z,a,x$
一个样本时， $z$ 的维数是 $(n^{[1]},1)$ ， $x$ 的维数是 $(n^{[0]},1)$ ， $a$ 的维数是 $(n^{[1]},1)$ 。 $m$ 个样本向量化之后变成了， $Z^{[i]}$ 的维数是 $(n^{[i]},m)$ ， $X$ 的维数是 $(n^{[0]},m)$ ， $A^{[i]}$ 的维数是 $(n^{[i]},m)$ 。同理， $\mathrm{d}Z^{[i]},\mathrm{d}A^{[i]}$ 的维数也是 $(n^{[i]},m)$ 。

3. 为什么使用深层表示

神经网络可以不大(小或者不大指的是隐藏单元的数量，即每层的单元数)，但得有深度，得有比较多的隐藏层。
以人脸检测，人脸识别为例，深度神经网络先识别简单特征，然后组合起来识别较复杂的特征，由简单到复杂。
神经网络有效的另一种说法，与电路元件依靠不同的逻辑门计算函数相似，如果不用多个隐层，那么单元数就会呈指数增长。如下图所示，左侧只需要 $O(log(n))$ 个隐层，右侧需要 $O(2^{n})$ 即 $2^{n-1}$ 个隐藏单元。

隐层数与节点数示意图
深度学习其实就是多隐层神经网络，是一种名称的再包装。
解决实际问题时，不必要一上来就用深度神经网络，可以将隐层数看作是超参数，从Logistic回归开始，到一到二个隐层的神经网络，慢慢调整，找到最佳效果。虽然不能否认的是很多问题确实是多隐层神经网络的效果更好。

4. 搭建深层神经网络

如下图所示的神经网络，第 $l$ 层需要的计算有：

示意神经网络

前向传播
- 输入： $a^{[l-1]}$
- 输出 $a^{[l]}$ ；
- 计算过程：
  $\begin{array}{l}{z^{[l]}=w^{[l]} a^{[l-1]}+b^{[l]}} \\ {a^{[l]}=g^{[l]}\left(z^{[l]}\right)} \end{array}$
- 缓存： $z^{[l]},w^{[l]},b^{[l]}$
后向传播
- 输入： $\mathrm{d}a^{[l]}$
- 输出： $\mathrm{d}a^{[l-1]}$
- 计算过程：为了简便说明，只给出相邻的两步计算公式，以看清楚计算过程
  根据公式
  $\begin{array}{l}{z^{[l]}=w^{[l]} a^{[l-1]}+b^{[l]}} \\ {a^{[l]}=g^{[l]}\left(z^{[l]}\right)} \\{z^{[l-1]}=w^{[l]-1} a^{[l-2]}+b^{[l-1]}} \\ {a^{[l-1]}=g^{[l-1]}\left(z^{[l-1]}\right)} \end{array}$
  不妨假设 $a^{[l]}$ 就是输出 $\hat{y}$ ，则有损失函数 ${L(a^{[l]},y)}$ ，从而可以得到 $\mathrm{d}a^{[l]}$ ，由第 $l$ 步的迭代公式，可以计算 $\mathrm{d}z^{[l]}$ ，进而计算 $\mathrm{d}w^{[l]},\mathrm{d}b^{[l]}$ ，并可看出，每一步如果像计算导数，都得先有对 $a$ 的导数 $\mathrm{d}a^{[l-1]} = \mathrm{d}z^{[l]} \bullet w^{[l] T}$ ，再进入第 $l-1$ 步迭代，依次前推。
- 缓存： $\mathrm{d}w^{[l]},\mathrm{d}b^{[l]}$
  即如下图所示
  
  第l层的计算示意图
  
  整个神经网络的计算如下图：
  
  神经网络一个梯度下降的计算示意图
前向与后向传播的计算公式：
- 前向传播
  $\begin{aligned} Z^{[1]} &=W^{[1]} X+b^{[1]} \\ A^{[1]} &=g^{[1]}\left(Z^{[1]}\right) \\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &=g^{[2]}\left(Z^{[2]}\right) \\ .\\ . \\. \\ A^{[L]} &=g^{[L]}\left(Z^{[L]}\right)=\hat{Y} \end{aligned}$
- 后向传播
  $\begin{array}{l}{d Z^{[L]}=d A^{[L]} \bullet g^{[L] '}(z^{[L ]})} \\ {d W^{[L]}=\frac{1}{m} d Z^{[L]} A^{[L]^{T}}} \\ {d b^{[L]}=\frac{1}{m} n p \cdot \operatorname{sum}\left(\mathrm{d} Z^{[L]}, \text { axis }=1, \text {keepdims}=\text { True }\right)} \\ {d A^{[L-1]}=W^{[L] T} \bullet d Z^{[L]} }\end{array}$
  ${d Z^{[L-1]}=W^{[L] T}d Z^{[L]} \bullet g^{[L-1] '}(z^{[L-1]})}$
  .
  .
  .
  ${d Z^{[1]}=W^{[2] T}d Z^{[2]} \bullet g^{[1] '}(z^{[1]})}$
  $d W^{[1]} =\frac{1}{m} d Z^{[1]} A^{[1]^{T}}$
  $d b^{[1]} =\frac{1}{m} n p \cdot \operatorname{sum}\left(\mathrm{d} Z^{[1]}, \text { axis }=1, \text {keepdims}=\text { True }\right)$
- 若做的是二分类问题，那么 $g^{[l]}$ 是sigmoid函数，从而有 $d a^{[l]} = -\frac{y}{a} + \frac{1-y}{1-a}$ 。
算法的复杂性来源于数据，而不是代码！