神经网络

本文主要介绍BP算法:

给定训练集D = \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},x_i \in R^dy \in R^l,即输入由d个属性描述,输出l维实值向量。

BP网络及算法中的变量符号.jpg

  • 上图给出了一个拥有d个输入神经元、l个输出神经元、q个隐层神经元的多层前馈网络结构,其中输出层第j个神经元的阈值用\theta_j表示,隐层第h个神经元的阈值用\gamma_h表示。输出层第i个神经元与隐层第h个神经元之间的连接权为v_{ih},隐层第h和神经元与输出层第j个神经元之间的连接权为w_{hj}
  • 记隐层第h个神经元接收到的输入为\alpha=\sum_{i=1}^d v_{ih}x_i,输出层第j个神经元接收到的输入为\beta_j = \sum_{h = 1}^qw_{hj}b_h,其中b_h为第h个神经元的输出。假设隐层和输出层的神经元激活函数为sigmoid(x) = \frac{1}{1+e^{-x}}
  • 对训练例(x_k,y_k),假定神经网络的输出为\hat{y}_k = (\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k),即\hat{y}_j^k = f(\beta_j-\theta_j),则网络在(x_k,y_k)上的均方误差为
    E_k = \frac{1}{2}\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2
  • BP算法是一个迭代学习算法,在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计,任意参数v的更新估计式为
    v \leftarrow v + \Delta v
    BP算法基于梯度下降(gradient descent)策略,以目标的负梯度方向对参数进行调整,对E_k = 1/2\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2,给定学习率\eta,有
    \Delta \omega_{hj} = -\eta\frac{\partial E_k}{\partial \omega_{hj}}
    注意到\omega_{hj}先影响到第j个输出层神经元的输入值为\beta_j,在影响到输出值\hat{y}_j^k,然后影响到E_k,有
    \frac{\partial E_k}{\partial \omega_{hj}} = \frac{\partial E_k}{\partial \hat{y}_j^k} \frac{\partial \hat{y}_j^k}{\partial \beta_j} \frac{\partial \beta_j}{\partial \omega_{hj}}
    根据\beta_j的定义,显然有
    \frac{\partial \beta_j}{\partial \omega_{hj}} = b_h
    Sigmoid函数有一个很好的性质:
    f(x)' = f(x)(1-f(x))
    那么有
    g_j = -\frac{\partial E_k}{\partial \hat{y}_j^k}\frac{\partial \hat{y}_j^k}{\beta_j} = -(\hat{y}^k_j - y_j^k)f'(\beta_j-\theta_j) = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)
    因此有:
    \Delta \omega_{hj} =\eta g_j g_h
  • 类似地,有
    输出层神经元的阈值:\Delta \theta_j = -\eta g_j
    输入层到隐层的连接权:\Delta v_{ih} = \eta e_h x_i
    隐层神经元的阈值:\Delta \gamma_h = -\eta e_h
    其中,
    e_h = -\frac{\partial E_k}{\partial b_h} \frac{b_h}{\alpha_h} = -\sum_{j = 1}^l \frac{\partial E_k}{\partial \beta_j}\frac{\beta_j}{\partial b_h}f'(\alpha_h - \gamma_h) = \sum_{j = 1}^l \omega_{hj}g_j f'(\alpha_h - \gamma_h) = b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j
  • 学习率\eta \in (0,1)控制着算法在每一轮迭代中的更新步长,若太长则容易震荡,太小则收敛速度又会过慢。

  • 输入
    训练集D= \{(x_k,y_k)\}_{k = 1}^m;
    学习率\eta.
  • 过程
    1:在(0,1)范围内随机初始化网络中所有连接权和阈值
    2:Repeat
    3:\quadfor all (x_k,y_k)\in D do
    4:\qquad 根据当前参数和\hat{y}_j^k = f(\beta_j-\theta_j)计算当前样本的输出\hat{y}_k;
    5:\qquad 根据式g_j = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)计算输出神经元的梯度项g_j
    6:\qquad 根据式e_h =b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j计算隐层神经元的梯度项e_h;
    7:\qquad 根据式\Delta \omega_{hj} =\eta g_j g_h\Delta \theta_j = -\eta g_j\Delta v_{ih} = \eta e_h x_i\Delta \gamma_h = -\eta e_h更新连接权\omega_{hj}v_{ih}与阈值\theta_j\gamma_h;
    8:\quad end for
    9:until 达到停止条件。
  • 输出
    连接权与阈值确定的多层前馈神经网络。

需注意的是,BP算法的目标是要最小化训练集D上的累积误差
E = 1/m \sum_{k = 1}^m E_k
标准的BP算法每次针对一个训练样例更新连接权和阈值。换言之,算法的更新规则是基于单个的E_k推到而得的。如果类似地推到基于累积误差最小化的更新规则,就得到了累积误差逆传播(accumulated error backpropagation)算法。
一般来说,标准BP算法每次更新只针对你单个样例,参数更新得非常频繁,而且对不同样例进行更新得效果可能出现抵消现象。因此,为了达到同样的累积误差极小点,标准BP算法往往需要进行更多次数的迭代。累积BP算法直接针对累积误差最小化,它在读取整个训练集D一遍后才对参数进行更新,其参数更新得频率低得多。

可以证明:多层前馈网络若包含足够多神经元的隐含层,则它可以以任意精度逼近任意复杂度的连续函数。

BP神经网络十分强大,因此可能出现过拟合现象。这时有两种策略可以缓解过拟合现象:

  • “”早停”策略:将数据集分成训练集和验证数据集两类,训练集用于计算梯度、更新连接权重和阈值;验证集用于估计误差,如果训练集误差降低而验证集误差上升,则停止训练。同时返回具有最小验证集误差的连接权重和阈值。
  • “正则化”策略:修改误差目标函数为:
    E = \frac{1}{N}\sum_{k = 1}^N E_k + \lambda\sum_i w_i^2
    其中w_i表示连接权重和阈值;\lambda >0表示对经验误差和网络复杂度的折中;即\lambda\sum_i w_i^2刻画了网络复杂度。

[ 神经网络的基本工作原理]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 神经网络 原理 《机器学习》周志华 5.1 神经元模型 神经网络中最0基本的成分是神经元(neuron)模型。 M...
    hxiaom阅读 1,083评论 0 0
  • 1. 章节主要内容 今天让我们来好好理解一下机器学习中的神经网络算法吧,其中多隐含层的神经网络算法就是目前最热的深...
    闪电随笔阅读 2,922评论 1 7
  • 神经网络 1 神经元模型 神经网络是由具有适应性的简单单元组成的广泛并行互连网络,它的组织能够模拟生物神经系统对真...
    edwin1993阅读 1,668评论 0 0
  • 新图678年,恒国在经历了三任君王的努力下,终于完成了新图北陆的统一。第四任君王,鲁龙·佑安,接过父亲手中的权杖,...
    古溪越阅读 269评论 2 2
  • 今天去吃面,看见路上的青菜特别好吃,就买了一把,到吃饭的时候让煮熟,然后
    Jinyuba阅读 136评论 0 0