为方便计算和书写，本次DNN只包含一个隐藏层，当隐藏层更深时，其原理和方法一样。网络结构如下：

DNN网络结构图

其中 $i=1,...p$ 用来代指输入层的神经元， $j=1,...h$ 用来代指隐藏层的神经元， $k=1,,,q$ 用来代指输出层的神经元。激活函数选取sigmoid函数，计算公式为: $f(x)=sigmoid(x)=\frac{1}{1+e^{-x}}$

$y_1,...,y_h$ 表示经过DNN后的输出（预测值）， $d_1,...,d_h$ 为标签（实际值）.激活函数的导数为：

$\frac{ \partial f(x)}{ \partial x}=\frac{e^{-x}}{(1+e^{-x})^2}=f(x)(1-f(x))$

前向传播：

1.隐藏层的计算：

$net_j =\sum^{p}_{i=1} w_{ji} *x_i+b_j$ $Z_j =f(net_j)$

上式中 $net_j$ 表示的式隐藏层未激活的神经元， $Z_j$ 表示隐藏层激活后的神经元 (此时的数值式下一次的输出), $w_{ji}$ 表示的是输入层的第i个神经元和隐藏层的第j个神经元之间的权重， $b_j$ 表示的是隐藏层的偏置，是一个h维的向量。

2.输出层的计算

$net_k=\sum^{h}_{j=1}w_{kj}z_j +b_k$ $y_k=f(net_k)$

上式中 $w_{kj}$ 表示的隐藏层的第j个神经元和输出层的第k个神经元之间的权重， $b_k$ 表示输出层的偏置，是一个q维的向量。 $net_k$ 表示输出层未激活的神经元， $y_k$ 表示输出层激活的神经元，此时作为输出层的输出。

3.误差计算

选取mse作为误差的计算公式（其他的还有交叉熵，KL等，一般来说交叉熵用的比较多）

$E=\frac{1}{2} \sum^{q}_{k=1}(y_k-d_k)^2$

这里前面的常数不影响误差的计算，为后面反向传播书写方方便，这里取二分之一。

梯度反向更新

1.隐藏层和输出层参数更新

1.1 权重的更新

误差对隐藏层和输出层之间权重的更新通过对输出层的输出传递到权重，其更新的公式如下：

$\frac{\partial E}{\partial {w_{kj}}}=\frac{\partial E}{\partial y_k}*\frac{\partial y_k}{\partial {w_{kj}}}$

等式右边的偏导数单独计算如下：

$\frac{\partial E}{\partial y_k}=y_k-d_k$

$\frac{\partial y_k}{\partial {w_{kj}}}=\frac{\partial y_k}{\partial net_k} *\frac{\partial net_k}{\partial {w_{kj}}} =y_k*(1-y_k)*z_j$

综上隐藏层和输出层之间的权重梯度为：

$\nabla w_{kj}= (y_k-d_k)*y_k*(1-y_k)*z_j$

运用梯度下降算法更新权重

$w_{kj}^{t+1}=w_{kj}^{t}-\eta*\nabla w_{kj}$

1.2 偏置的更新

$\frac{\partial E}{\partial {w_{kj}}}=\frac{\partial E}{\partial y_k}*\frac{\partial y_k}{\partial b_kb_k}$

等式右边偏导数单独计算如下：

$\frac{\partial E}{\partial y_k}=y_k-d_k$

$\frac{\partial y_k}{\partial b_k}=\frac{\partial y_k}{\partial net_k} *\frac{\partial net_k}{\partial {b_k}} =y_k*(1-y_k)$

综上隐藏层和输出层之间的偏置梯度为：

$\nabla b_k =(y_k-d_k)*y_k*(1-y_k)$

运用梯度下降算法更新偏置

$b_k^{t+1} = b_k^t-\eta*\nabla b_k$

2.输入层和隐藏层之间参数的更新

2.1 权重的更新

误差对输入层和隐藏层之间的 $w_{ji}$ 的更新与输出层和隐藏层之间的 $w_{kj}$ 更新不同， $w_{kj}$ 只和输出层的第k个神经元有关，所以误差传递时只通过 $net_k$ 就可以了，与输出层其他的神经元无关，但是在隐藏层的第j个神经元 $net_j$ ，其与输出层的每个神经元都有关，所以误差在反向传到隐藏层时，需要通过输出层的每一个神经元传到隐藏层的 $net_j$ ,因此对 $w_{ji}$ 的梯度计算公式如下：

$\frac{\partial E}{\partial {w_{ji}}}=\sum^{q}_{k=1}{(\frac{\partial E}{\partial y_k}*\frac{\partial y_k}{\partial z_j}*\frac{\partial z_j}{\partial {w_{ji}}})}$

等式右边括号内的式子单独计算如下：

$\frac{\partial E}{\partial y_k}=y_k-d_k$

$\frac{\partial y_k}{\partial z_k}=\frac{\partial y_k}{ \partial net_k}*\frac{ \partial net_k}{ \partial z_j}=y_k*(1-y_k)*w_{kj}$

$\frac{\partial z_j}{\partial w_{ji}}= \frac{\partial z_j}{\partial net_j}*\frac{\partial net_j}{ \partial w_{ji}}=z_j*(1-z_j)*x_i$

综上， $w_{ji}$ 的梯度为：

$\nabla w_{ji}=z_j*(1-z_j)*\sum^{q}_{k=1}{((y_k-d_k)*y_k*(1-y_k)*w_{kj}*x_i)}$

梯度下降法更新权重：

$w_{ji}^{t+1}=w_{ji}^{t}-\eta*\nabla w_{ji}$

2.2 偏置的更新

对输出层和隐藏层偏置的更新和权重的更新一样，都需要经过输出层的每一个神经元才能到达 $net_j$ 。其计算公式如下：

$\frac{\partial E}{\partial b_j}=\sum^{q}_{k=1}{(\frac{\partial E}{\partial y_k}*\frac{\partial y_k}{ \partial b_j})}$

等式右边的式子单独计算如下：

$\frac{\partial E}{\partial y_k}=y_k-d_k$

$\frac{\partial y_k}{\partial b_j}=\frac{\partial y_k}{\partial net_k}*\frac{\partial net_k}{\partial z_j}*\frac{\partial z_j}{\partial net_j}*\frac{\partial net_j}{\partial b_j}=y_k(1-y_k)*w_{ki}*z_j (1-z_j)$

综上， $b_j$ 的梯度为：

$\nabla b_j=z_j(1-z_j)\sum^{q}_{k=1}(y_k-d_k)y_k(1-y_k)w_{kj}$

梯度下降更新偏置：

$b_j^{t+1} = b_j^t-\eta*\nabla b_j$

注：

在更新过程中，所有的参数都是用上一步的所有信息进行更新，不是前面的更新之后立刻用于后面，后面的参数在更新过程中依旧使用上一时间段的所有信息。即t+1时刻的参数更新全部用的t时刻的信息，就算某些参数提前更新到了t+1,但是其他参数并不会用t+1的参数，而是继续使用t时刻的参数，这个和坐标下降算法不一样。

DNN及其误差逆传播算法

DNN及其误差逆传播算法

前向传播：

1.隐藏层的计算：

2.输出层的计算

3.误差计算

梯度反向更新

1.隐藏层和输出层参数更新

1.1 权重的更新

1.2 偏置的更新

2.输入层和隐藏层之间参数的更新

2.1 权重的更新

2.2 偏置的更新

注：