神经网络

本文主要介绍BP算法：

给定训练集 $D = \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ , $x_i \in R^d$ ， $y \in R^l$ ，即输入由 $d$ 个属性描述，输出 $l$ 维实值向量。

BP网络及算法中的变量符号.jpg

上图给出了一个拥有 $d$ 个输入神经元、 $l$ 个输出神经元、 $q$ 个隐层神经元的多层前馈网络结构，其中输出层第 $j$ 个神经元的阈值用 $\theta_j$ 表示,隐层第 $h$ 个神经元的阈值用 $\gamma_h$ 表示。输出层第i个神经元与隐层第h个神经元之间的连接权为 $v_{ih}$ ,隐层第 $h$ 和神经元与输出层第 $j$ 个神经元之间的连接权为 $w_{hj}$ 。
记隐层第 $h$ 个神经元接收到的输入为 $\alpha=\sum_{i=1}^d v_{ih}x_i$ ,输出层第 $j$ 个神经元接收到的输入为 $\beta_j = \sum_{h = 1}^qw_{hj}b_h$ ，其中 $b_h$ 为第 $h$ 个神经元的输出。假设隐层和输出层的神经元激活函数为 $sigmoid(x) = \frac{1}{1+e^{-x}}$ 。
对训练例 $(x_k,y_k)$ ，假定神经网络的输出为 $\hat{y}_k = (\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k)$ ，即 $\hat{y}_j^k = f(\beta_j-\theta_j)$ ，则网络在 $(x_k,y_k)$ 上的均方误差为
$E_k = \frac{1}{2}\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2$
BP算法是一个迭代学习算法，在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计，任意参数 $v$ 的更新估计式为
$v \leftarrow v + \Delta v$
BP算法基于梯度下降(gradient descent)策略，以目标的负梯度方向对参数进行调整，对 $E_k = 1/2\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2$ ，给定学习率 $\eta$ ，有
$\Delta \omega_{hj} = -\eta\frac{\partial E_k}{\partial \omega_{hj}}$
注意到 $\omega_{hj}$ 先影响到第j个输出层神经元的输入值为 $\beta_j$ ,在影响到输出值 $\hat{y}_j^k$ ，然后影响到 $E_k$ ,有
$\frac{\partial E_k}{\partial \omega_{hj}} = \frac{\partial E_k}{\partial \hat{y}_j^k} \frac{\partial \hat{y}_j^k}{\partial \beta_j} \frac{\partial \beta_j}{\partial \omega_{hj}}$
根据 $\beta_j$ 的定义，显然有
$\frac{\partial \beta_j}{\partial \omega_{hj}} = b_h$
Sigmoid函数有一个很好的性质：
$f(x)' = f(x)(1-f(x))$
那么有
$g_j = -\frac{\partial E_k}{\partial \hat{y}_j^k}\frac{\partial \hat{y}_j^k}{\beta_j} = -(\hat{y}^k_j - y_j^k)f'(\beta_j-\theta_j) = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$
因此有：
$\Delta \omega_{hj} =\eta g_j g_h$
类似地，有
输出层神经元的阈值： $\Delta \theta_j = -\eta g_j$
输入层到隐层的连接权： $\Delta v_{ih} = \eta e_h x_i$
隐层神经元的阈值： $\Delta \gamma_h = -\eta e_h$
其中，
$e_h = -\frac{\partial E_k}{\partial b_h} \frac{b_h}{\alpha_h} = -\sum_{j = 1}^l \frac{\partial E_k}{\partial \beta_j}\frac{\beta_j}{\partial b_h}f'(\alpha_h - \gamma_h) = \sum_{j = 1}^l \omega_{hj}g_j f'(\alpha_h - \gamma_h) = b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j$
学习率 $\eta \in (0,1)$ 控制着算法在每一轮迭代中的更新步长，若太长则容易震荡，太小则收敛速度又会过慢。

输入：
训练集 $D= \{(x_k,y_k)\}_{k = 1}^m$ ;
学习率 $\eta$ .
过程：
1：在（0,1）范围内随机初始化网络中所有连接权和阈值
2：Repeat
3： $\quad$ for all $(x_k,y_k)\in D$ do
4： $\qquad$ 根据当前参数和 $\hat{y}_j^k = f(\beta_j-\theta_j)$ 计算当前样本的输出 $\hat{y}_k$ ;
5： $\qquad$ 根据式 $g_j = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$ 计算输出神经元的梯度项 $g_j$ ；
6： $\qquad$ 根据式 $e_h =b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j$ 计算隐层神经元的梯度项 $e_h$ ;
7： $\qquad$ 根据式 $\Delta \omega_{hj} =\eta g_j g_h$ 、 $\Delta \theta_j = -\eta g_j$ 、 $\Delta v_{ih} = \eta e_h x_i$ 、 $\Delta \gamma_h = -\eta e_h$ 更新连接权 $\omega_{hj}$ 、 $v_{ih}$ 与阈值 $\theta_j$ 、 $\gamma_h$ ;
8： $\quad$ end for
9：until 达到停止条件。
输出：
连接权与阈值确定的多层前馈神经网络。

需注意的是，BP算法的目标是要最小化训练集 $D$ 上的累积误差
$E = 1/m \sum_{k = 1}^m E_k$
标准的BP算法每次针对一个训练样例更新连接权和阈值。换言之，算法的更新规则是基于单个的 $E_k$ 推到而得的。如果类似地推到基于累积误差最小化的更新规则，就得到了累积误差逆传播(accumulated error backpropagation)算法。
一般来说，标准BP算法每次更新只针对你单个样例，参数更新得非常频繁，而且对不同样例进行更新得效果可能出现抵消现象。因此，为了达到同样的累积误差极小点，标准BP算法往往需要进行更多次数的迭代。累积BP算法直接针对累积误差最小化，它在读取整个训练集 $D$ 一遍后才对参数进行更新，其参数更新得频率低得多。

可以证明：多层前馈网络若包含足够多神经元的隐含层，则它可以以任意精度逼近任意复杂度的连续函数。

BP神经网络十分强大，因此可能出现过拟合现象。这时有两种策略可以缓解过拟合现象：

“”早停”策略：将数据集分成训练集和验证数据集两类，训练集用于计算梯度、更新连接权重和阈值；验证集用于估计误差，如果训练集误差降低而验证集误差上升，则停止训练。同时返回具有最小验证集误差的连接权重和阈值。
“正则化”策略：修改误差目标函数为：
$E = \frac{1}{N}\sum_{k = 1}^N E_k + \lambda\sum_i w_i^2$
其中 $w_i$ 表示连接权重和阈值； $\lambda >0$ 表示对经验误差和网络复杂度的折中；即 $\lambda\sum_i w_i^2$ 刻画了网络复杂度。

[ 神经网络的基本工作原理]

本文主要介绍BP算法：

推荐阅读更多精彩内容