反向传播算法

神经网络

参数定义

$w_{ji}^l$ ：从层l-1的第i个神经元指向层l的第j个神经元的权重。注意i和j的顺序。

参数定义

输入层关系式

$a_{j}^l$ 定义为层l的第j个神经元的输出值。输入层（即l=1）表示为 $x_{i} =a_{i}^1$

隐藏层关系式

输出层关系式

用矩阵形式表示参数

参数的矩阵表示

正解的表示

真实标签

代价函数

均方误差 $C = \frac{1}{2} \left\{ (t_{1} -a_{1}^3 )^2 + (t_{2} -a_{2}^3)^2 \right\}$

交叉熵 $-\frac{1}{2} [\left\{ t_{1}\log a_{1}^3 + (1-t_{1})\log (1-a_{1}^3) \right\} + \left\{ t_{2}\log a_{2}^3 + (1-t_{2})\log (1-a_{2}^3) \right\} ]$

误差反向传播

计算第k个样本的均方误差 $C_{k}$ 对某个参数的导数，利用偏导数的链式法则

链式法则

用具体的式子求梯度分量十分困难，链式法则中导数复杂繁多。误差反向传播法解决了此问题。

引入神经单元误差 $\delta _{j}^l = \frac{\partial C}{\partial z_{j}^{l}} (l=2,3,...)$

表示神经单元的加权输入 $z_{j}^l$ 对平方误差的变化率，如果神经网络符合数据则变化率应该是0，可以认为 $\delta _{j}^l$ 表示神经网络与真实数据的偏差。

则上述表达式可以变形

$\frac{\partial C}{\partial w_{11}^{2}} =\frac{\partial C}{\partial z_{1}^{2}} \frac{\partial z_{1}^{2}}{\partial w_{11}^{2}}$

由于 $z_{1}^2=w_{1,1}^2x_{1}+ w_{1,2}^2x_{2}+...+w_{1,12}^2x_{12}+b_{1}^2$ ，可以得到 $z_{1}^2$ 对 $w_{1,1}^2$ 的偏导数是 $x_{1}$ ，因此 $\frac{\partial C}{\partial w_{11}^{2}} =\delta _{1}^{2}x_{1}$

建立起 $\delta _{j}^l$ 与平方误差C关于权重和偏置的偏导数关系，得到一般公式

$\frac{\partial C}{\partial w_{ji}^{l}} =\delta _{j}^{l}a_{i}^{l-1}，\frac{\partial C}{\partial b_{j}^{l}} =\delta _{j}^{l} (l=2,3...)$ ，计算输出层的 $\delta _{j}^l$

考虑上述示例中，层数为3的神经网络，以 $a(z)$ 为激活函数，则输出层的神经单元误差 $\delta_{j}^3$ (j=1,2)

$\delta _{j}^{3} =\frac{\partial C}{\partial z_{j}^{3}}=\frac{\partial C}{\partial a_{j}^{3}} \frac{\partial a_{j}^{3}}{\partial z_{j}^{3}}=\frac{\partial C}{\partial a_{j}^{3}}a^{‘}(z_{j}^{3})$

因为均方误差 $C = \frac{1}{2} \left\{ (t_{1} -a_{1}^3 )^2 + (t_{2} -a_{2}^3)^2 \right\}$ ，因此有 $\frac{\partial C}{\partial a_{1}^{3}}= a_{1}^{3}-t_{1}$

激活函数是sigmoid函数 $\sigma (z)$ ，

激活函数的导数

最终输出层 $\delta_{1}^3=(a_{1}^3-t_{1} ) \sigma (z_{1}^3)(1- \sigma (z_{1}^3))$

中间层的 $\delta _{j}^l$ 通过简单的关系式，与下一层的神经单元误差 $\delta _{j}^{l+1}$ 联系起来

根据偏导数链式法则，有 $\delta _{1}^{2}=\frac{\partial C}{\partial z _{1}^{2}} =\frac{\partial C}{\partial z _{1}^{3}} \frac{\partial z _{1}^{3}}{\partial a _{1}^{2}} \frac{\partial a _{1}^{2}}{\partial z _{1}^{2}} +\frac{\partial C}{\partial z _{2}^{3}} \frac{\partial z _{2}^{3}}{\partial a _{1}^{2}} \frac{\partial a _{1}^{2}}{\partial z _{1}^{2}}$