深度神经网络反向传播公式推导

深度神经网络反向传播算法，由输出层的误差开始到输出层的输入，如下所示

$E_d \leftarrow \hat{y_i} \leftarrow net_i \tag1$

这里的箭头 $\leftarrow$ 表示的是前者是后者的函数，不是反向传播的方向。 $(1)$ 式中 ~~$E_d$ 是~~输出层的训练误差， $\hat{y_i}$ 训练结果中输出层 $i$ 节点的输出， $net_i$ 是前向传播中，输出层的带权输入。其中 $E_d$ 是 $\hat{y_i}$ 的函数， $\hat{y_i}$ 是 $net_i$ 的函数。由链式求导法则

$\frac{\partial E_d}{\partial net_i} = \frac{\partial E_d}{\partial \hat{y_i}} \frac{\partial \hat{y_i}}{\partial net_i} \tag2$

可得到输出层的输入 $net_i$ 对误差 $E_d$ 的偏导数，以下分别计算 $(2)$ 式两项

根据样本输出 $\hat{y_{i}}$ 和标准输出 $y_i$ ，采用最小二乘法得训练损失函数

$E_{d} = \sum_{i}\frac{1}{2}(y_{i} - \hat{y_{i}})^2 \tag3$

所以有 $(2)$ 式第一项

$\frac{\partial E_{d}}{\partial \hat{y_i}} = \frac{\partial \sum_{i}\frac{1}{2}(y_{i} - \hat{y_{i}})^2}{\partial \hat{y_i}} = -(y_{i} - \hat{y_{i}}) \tag4$

由 $net_i$ 到 $y_i$ 是做了激活操作，这里使用的激活函数是sigmoid函数

$y = sigmoid(x) = \frac{1}{1 + e^{-x}} \tag5$

求导得

$\frac{\partial y}{\partial x} = y(1 - y) \tag6$

$(2)$ 式第二项

$\frac{\partial \hat{y_i}}{\partial net_{i}} = \hat{y_i}(1 - \hat{y_i}) \tag{7}$

所以 $(2)$ 式可以写为

$\frac{\partial E_{d}}{\partial net_{i}} = -\hat{y_i}(1 - \hat{y_i})(\hat{y_{i}} - y_{i}) \tag{8}$

反向传播的梯度下降算法核心便是从后向前计算出每个节点的误差项，记

$\delta_i=-\frac{\partial E_{d}}{\partial net_{i}}\tag{9}$

以下对 $i$ 节点处在输出层和隐藏层两种情况分开讨论。

一、 $i$ 节点是输出层节点:

神经网络反向传播由后向前传播到输出层的隐藏函数

$(E_d \leftarrow y_i \leftarrow net_i) \leftarrow w_{ij} \tag{10}$

结合 $(1)$ 式， $w_{ij}$ 是上一层节点 $j$ 到输出层节点 $i$ 的边的权重， $net_i$ 是 $w_{ij}$ 的函数，那么有：

$\frac{\partial E_{d}}{\partial w_{ij}} = \frac{\partial E_d}{\partial net_i} \frac{\partial net_i}{\partial w_{ij}} \tag{11}$

$(10)$ 式中第一项 $\frac{\partial E_d}{\partial net_i}$ 是 $i$ 节点的误差项，已由 $(9)$ 式给出。第二项计算如下

$\frac{\partial net_i}{\partial w_{ij}} = \frac{\partial \sum_{j \in Upstream(i)}w_{ij}a_j}{\partial w_{ij}} = a_j \tag{12}$

根据反向传播梯度下降算法更新 $w_{ij}$ ，其中 $\eta$ 是学习率：

$w_{ij} = w_{ij} - \eta \cdot \frac{\partial E_d}{\partial w_{ij}} = w_{ij} - \eta \cdot \frac{\partial E_d}{\partial net_i} \frac{\partial net_i}{\partial w_{ij}} \tag{13}$

得

$w_{ij} = w_{ij} + \eta \cdot \delta_i \cdot a_j \tag{14}$

$(14)$ 式即是我们再反向传播中，要更新的，隐藏层中与输出层相连的边对应的权重公式。再强调下， $w_{ij}$ 是隐藏层 $j$ 到输出层 $i$ 节点的权重， $\eta$ 是学习率， $a_j$ 是 $j$ 节点传递给 $i$ 节点的输入值。

二、 $i$ 节点是隐藏层节点:

反向传播中，由输出层到隐藏层的输入

$(E_d \leftarrow y_K \leftarrow net_K \leftarrow a_i \leftarrow net_i) \leftarrow w_{ij}\tag{15}$

这里的 $y_K$ 和 $net_K$ 中的 $K$ 是隐藏层中 $i$ 节点到输出层所有节点的集合，记为 $K = \left\{k | k \in DownStream(i) \right\}$ ， $a_i、net_i$ 分别是隐藏层 $i$ 节点的输出和输入，结合 $(1)$ 式， $net_k$ 是 $a_i$ 的函数， $a_i$ 是 $net_i$ 的函数， $net_i$ 是 $w_{ij}$ 的函数，

$a_i = sigmoid(net_i) \tag{16}$

由链式求导法则可得

$\frac{\partial E_d}{\partial w_{ij}} = \sum_{k \in Downstream(i)} \frac{\partial E_d}{\partial net_k} \frac{\partial net_k}{\partial a_i} \frac{\partial a_i}{\partial net_i} \frac{\partial net_i}{\partial w_{ij}} \tag{17}$

结合上一节， $(17)$ 式第一项

$\delta_k = - \frac{\partial E_d}{\partial net_k} \tag{18}$

$(17)$ 式第二项

$\frac{\partial net_k}{\partial a_i} = w_{ki} \tag{19}$

$(17)$ 式第三项

$\frac{\partial a_i}{\partial net_i} = a_i(1 - a_i) \tag{20}$

$(17)$ 式第四项

$\frac{\partial net_i}{\partial w_{ij}} = b_j \tag{21}$

$i$ 节点的误差项记为 $\delta_i$ ，有

$\delta_{i} = - \frac{\partial E_d}{\partial net_i} = - \sum_{k \in Downstream(i)} \frac{\partial E_d}{\partial net_k} \frac{\partial net_k}{\partial a_i} \frac{\partial a_i}{\partial net_i} =a_{i}(1 - a_{i})\sum_{k\in Downstream(i)} w_{ki}\delta_{k} \tag{22}$