深层神经网络的表示

如上图所示，逻辑回归是一个浅层模型，可以理解为是单层神经网络。深层或浅层是一个程度的问题。如果将逻辑回归模型加入一个隐藏层就变了一个双层神经网络，但还是比较浅的。如果加入 5 个隐藏层，则可以说是一个深层模型。通常可以把隐藏层数当作超参数，然后在交叉验证数据集上进行评估，从而选择合适的深度。

上图是一个 4 层的神经网络，包括三个隐藏层和一个输出层，隐藏层的单元数分别是 5 5 3，输出层只有一个单元。通常用 L 表示神经网络的层数，用 $n^{[l]}$ 表示第 $l$ 层的单元数，可以把输入层当作第 0 层。那么图中 L = 4， $n^{[0]}=3$ ， $n^{[1]}=5$ ， $n^{[2]}=5$ ， $n^{[3]}=3$ ， $n^{[4]}=1$ 。可以用 $a^{[l]}$ 表示第 $l$ 层的激活值，即 $a^{[l]}=g^{[l]}(z^{[l]})$ ，用 $w^{[l]}$ 和 $b^{[l]}$ 表示在 $a^{[l]}$ 公式中计算 $z^{[l]}$ 值的权重，即 $z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$ 。输入用 X 表示，X 也是第 0 层，所以 $X=a^{[0]}$ ，最后一层 $a^{[L]}=\hat y$ ，也就是说 $a^{[L]}$ 即为神经网络的预测值（输出值）。

前向传播

假设有一个样本 x，那么：

第一层计算： $z^{[1]}=w^{[1]}x+b^{[1]}$ ，其中 x 也可以表示为 $a^{[0]}$ ， w 和 b 是会影响第 1 层的激活单元的参数，接下来计算： $a^{[1]}=g^{[1]}(z^{[1]})$ ，后面几层的计算也是如此。

第二层计算： $z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}$ ， $a^{[2]}=g^{[2]}(z^{[2]})$

第三层计算： $z^{[3]}=w^{[3]}a^{[2]}+b^{[3]}$ ， $a^{[3]}=g^{[3]}(z^{[3]})$

第四层计算： $z^{[4]}=w^{[4]}a^{[3]}+b^{[4]}$ ， $a^{[4]}=g^{[4]}(z^{[4]})=\hat y$

可以总结出，计算规律为： $z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]},a^{[l]}=g^{[l]}(z^{[l]})$

前向传播的向量化计算：

$Z^{[1]}=W^{[1]}X+b^{[1]}\\ A^{[1]}=g^{[1]}(Z^{[1]})\\ Z^{[2]}=W^{[1]}A^{[1]}+b^{[2]}\\ A^{[2]}=g^{[2]}(Z^{[2]})\\ Z^{[3]}=W^{[3]}A^{[2]}+b^{[3]}\\ A^{[3]}=g^{[3]}(Z^{[3]})\\ Z^{[4]}=W^{[4]}A^{[3]}+b^{[4]}\\ A^{[4]}=g^{[4]}(Z^{[4]})$

输入 X 即 $a^{[0]}$ ，是将 m 个样本横向堆叠构成的矩阵，前向传播需要一层一层来迭代计算，所以需要用 for 循环从第 1 层迭代计算到第 L 层，深层神经网络只是比浅层神经网络有更多层的迭代计算。

矩阵计算

在上图的神经网络中，除去输入层一共有 5 层，其中 4 个隐藏层，一个输出层。第 1 个隐藏层有 3 个隐藏单元，可以表示为 $n^{[1]}=3$ ， $z^{[1]}$ 是第 1 个隐藏层的激活函数向量，是一个 3 x 1 的列向量，x 有两个输入特征，所以 x 是 2 x 1 的列向量。在第一层的计算中： $z^{[1]}=W^{[1]}x+b^{[1]}$ ，如果忽略偏置项 $b^{[1]}$ ， $z^{[1]}=W^{[1]}x$ 。 $W^{[1]}$ 乘以一个 2 x 1 的列向量 x，需要等于一个 3 x 1 的列向量，那么 $W^{[1]}$ 必须是一个 3 x 2 的矩阵，即 $n^{[1]}\times n^{[0]}$ 的矩阵。 $W^{[1]}x$ 的结果是一个 3 x 1 的向量， $b^{[1]}$ 也是一个 3 x1 的向量，所以结果 $z^{[1]}$ 也是一个 3 x 1 的向量。可以发现， $W^{[l]}$ 必须是 $n^{[l]}\times n^{[l-1]}$ 维的矩阵， $b^{[l]}$ 必须是 $n^{[l]}\times 1$ 维的列向量，所以 $W^{[2]}$ 的维数是 5 x 3，即 $n^{[2]}\times n^{[1]}$ ， $b^{[2]}$ 的维数是 5 x 1，即 $n^{[2]}$ x 1，所以在第二层的计算中： $z^{[2]}=W^{[2]}\cdot a^{[1]}+b^{[2]}$ ，5 x 3 的矩阵 $W^{[2]}$ 乘以 3 x 1 的列向量 $a^{[1]}$ 等于一个 5 x 1 的列向量，再加上一个 5 x 1 的偏置项 $b^{[2]}$ ，结果 $z^{[2]}$ 是一个 5 x 1 的列向量。以此类推， $W^{[3]}$ 的维数是 4 x 5， $W^{[4]}$ 的维数是 2 x 4， $W^{[5]}$ 的维数是 1 x 2。

前面证实了， $W^{[l]}$ 必须是 $n^{[l]}\times n^{[l-1]}$ 维的矩阵， $b^{[l]}$ 必须是 $n^{[l]}\times 1$ 维的列向量。而且，在反向传播中， $dW^{[l]}$ 和 $W^{[l]}$ 的维度相同， $db^{[l]}$ 和 $b^{[l]}$ 的维度相同。又因为 $a^{[l]}=g^{[l]}(z^{[l]})$ ，所以 $a^{[l]}$ 和 $z^{[l]}$ 的维度也相同，都是 $n^{[l]}\times 1$ 。

以上是神经网络中单个样本的计算，其中 x 表示单个样本，通常为了加速运算，需要将 m 个样本进行向量化计算，可以用 X 表示 m 个样本，第一个隐藏层的向量化计算公式即为： $Z^{[1]}=W^{[1]}X+b^{[1]}$ ，其中 $W^{[1]}$ 还是 $n^{[1]}\times n^{[0]}$ 维， X 变为 $n^{[0]}\times m$ 维， $W^{[1]}X$ 的结果是 $n^{[1]}\times m$ 的矩阵， $b^{[1]}$ 的维度还是 $n^{[1]}\times 1$ ，但当一个 $n^{[1]}\times m$ 的矩阵和 $b^{[1]}$ 相加时，Python会通过广播将 $b^{[1]}$ 复制成为 $n^{[1]}\times m$ 的矩阵，然后两个矩阵逐个元素相加。所以 $Z^{[1]}$ 的维度变为 $n^{[1]}\times m$ ，即 3 x m。 $Z^{[1]}$ 表示每一个单独的 $z^{[1]}$ 横向叠加构成的行向量，即 $Z^{[1]}=[\begin{smallmatrix}z^{[1](1)}&\cdots&z^{[1](m)}\end{smallmatrix}]$ 。

单个样本时， $z^{[l]}$ 和 $a^{[l]}$ 的维度相同，都是 $n^{[l]}\times 1$ ，m 个样本时， $Z^{[l]}$ 和 $A^{[l]}$ 的维度相同，都是 $n^{[l]}\times m$ ，当 $l$ 等于 0 时， $A^{[0]}$ 等于 $n^{[0]}\times m$ ，其中 $n^{[0]}$ 是 x 的输入特征数。反向传播时，dZ、dA 和 Z、A 的维度相同。

为什么使用深层表示

从直觉上可以把深度神经网络的前几层当做探测简单的函数，也就是学习一些低层次的简单特征，之后把它们和后几层结合在一起，也就是把简单的特征结合起来，那么总体上就能学习更多复杂的函数，也就是去探测更复杂的东西。可以把深度学习神经网络和人类大脑做类比，人的大脑也是先探测简单的东西，然后组合起来才能探测复杂的物体。

神经网络为何有效的理论来源于电路理论，它和能够用电路元件计算哪些函数有着分不开的联系，根据不同的基本逻辑门（与，或，非），在非正式情况下，这些函数都可以用相对较小（指隐藏单元数量）但很深的神经网络来计算，如果用浅层神经网络则需要指数增长的隐藏单元数量才能达到同样的效果。

梯度下降的迭代过程

上图是一个 4 层的神经网络，梯度下降的一个迭代过程即为前向传播和反向传播的计算过程，如下图所示：

在前向传播计算中，从第 1 层开始，第 $l$ 层的输入为上一层（第 $l-1$ 层）的激活函数计算结果 $a^{[l-1]}$ 和当前层的参数 $W^{[l]},b^{[l]}$ ，输出为当前层激活函数计算结果 $a^{[l]}$ ，还要缓存 $z^{[l]}$ 和 $W^{[l]},b^{[l]}$ 以供反向传播使用， $a^{[l]}$ 则输入到下一层（第 $l+1$ 层），计算过程如下：
$\begin{align}z^{[l]}=&W^{[l]}a^{[l-1]}+b^{[l]}\\ a^{[l]}=&g^{[l]}(z^{[l]})\end{align}$

向量化计算为：
$\begin{align}Z^{[l]}=&W^{[l]}A^{[l-1]}+b^{[l]}\\ A^{[l]}=&g^{[l]}(Z^{[l]})\end{align}$

当计算完所有层的前向传播后，第 L 层的激活函数计算结果 $a^{[L]}$ 即当前样本的预测值。接下来将进行反向传播计算，从第 L 层开始，第 $l$ 层的输入为当前层激活函数计算结果的导数值 $da^{[l]}$ 和当前层的参数 $w^{[l]},b^{[l]}$ ，输出为上一层（第 $l-1$ 层）激活函数计算结果的导数值 $da^{[l-1]}$ ，以及当前层参数的导数值 $dw^{[l]},db^{[l]}$ ，计算过程如下：

首先 $da^{[l]}=-\frac{y}{a}+\frac{(1-y)}{(1-a)}$

$dz^{[l]}=da^{[l]}*g^{[l]}{'}(z^{[l]})\\ dw^{[l]}=dz^{[l]}a^{[l-1]}\\ db^{[l]}=dz^{[l]}\\ da^{[l-1]}=W^{[l]T}dz^{[l]}$

由 $da^{[l-1]}=W^{[l]T}dz^{[l]}$ 可知 $da^{[l]}=W^{[l+1]T}dz^{[l+1]}$ ，将 da 带入可求得： $dz^{[l]}=W^{[l+1]T}dz^{[l+1]}*g^{[l]}{'}(z^{[l]})$

向量化计算为：
首先 $dA^{[l]}=（-\frac{y^{(1)}}{a^{(1)}}+\frac{(1-y^{(1)})}{(1-a^{(1)})}）+\cdots+（-\frac{y^{(m)}}{a^{(m)}}+\frac{(1-y^{(m)})}{(1-a^{(m)})}）$

$dZ^{[l]}=dA^{[l]}*g^{[l]}{'}(Z^{[l]})\\ dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}\\ db^{[l]}=\frac{1}{m}\text{np.sum($dZ^{[l]}$, axis = 1, keepdeims = True)}\\ dA^{[l-1]}=W^{[l]T}dZ^{[l]}$

在每一层中根据梯度下降公式，更新参数：
$W^{[l]}=W^{[l]}-\alpha\cdot dW^{[l]}\\ b^{[l]}=b^{[l]}-\alpha\cdot db^{[l]}\$

这就是神经网络中梯度下降一个迭代的计算过程。

参数和超参数

神经网络中的参数包括： W 和 b。超参数包括：学习率 $\alpha$ ，梯度下降迭代次数（iterations），隐层数（L），隐藏单元数（units），激活函数（activefunction），因为这些参数是在某种程度上决定了参数 W 和 b 的参数，所以叫做超参数。其他超参数包括：momentum，batch size，正则化参数等

可以通过尝试不同的超参数，观察代价函数曲线变化，从而选择表现最好的超参数。

神经网络和人类大脑有什么关系？

没有。

参考

https://mooc.study.163.com/smartSpec/detail/1001319001.htm