关于神经网络
第一次写简书,如有不足之处还请多多包涵。
闲话不多说了,进入正题。首先介绍一下什么是神经网络。人们口中常说的“神经网络”有两种:第一种,生物方面的,一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动(摘自度娘);第二种,人工方面的,也称人工神经网络(Artificial Neural Networks,简写为ANNs),是一种模仿生物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
生物神经网络
初中、高中生物就学的不怎么样,所以对生物神经网络也就不怎么深究了。抱歉,直接上个图,只要明白长啥样就行(偷个懒)。
人工神经网络
现在才是我们重点要讨论的内容:MP神经网络和BP神经网络。
一、MP神经网络
上图就是一个基本的MP神经网络。其中,Layer L1被称为神经网络的输入层,何为输入层?就是类似于咱们人类的感官接收到的声波、光波等等。Layer L2被称为隐藏层,就是类似于咱们将接收到的声波、光波传输到大脑皮层相应区域的过程。Layer L3被称为输出层,就是类似于咱们大脑将数据接收转换的过程,比如,将声波转换成语言、将光波转换成一个苹果......等等。
在MP神经网络模型中,从输入层到隐藏层的计算是通过以下公式进行的:
对线性模型(Linear Model)比较了解的人应该非常熟悉这个公式
线性模型可以表示成有限个基函数(basis function)的线性融合,基函数的形式可以自己定义,举个简单的例子,øj(x)(吐槽一下,这个ø太难打出来了)可以是关于输入 m 次幂的多项式 x^m。实际上神经网络也可以看成是一些线性函数的叠加,不过中间有了一个激活函数f(),情况就变得跟线性模型不一样了。W等代表从输入层到隐藏层、隐藏层到输出层每一个连接(图中的连线)的权重。激活函数f()之所以成为激活函数,可以把它想象成一个开关,控制着神经元的开(1)或者关(0),它的作用是永远把输入值限制在-1到1(或者0到1)之间。在本应用中,利用的是Sigmoid函数(也成为S型函数)。
二、BP神经网络
MP神经网络有一个最大的问题就是无法控制误差,也就是无法保证模型计算的精度。就好比日常销售物品都有售后服务一样,一锤子买卖是行不通的。所以,我们需要一个反向的反馈来控制,也就是缩小了实际输出和期望输出的差距,也就减少了误差,模型也就变得更加精确。
BP即Back Propagation的缩写,也就是反向传播的意思,顾名思义,将什么反向传播?显然,输入的数据是已知的,变量只有那些个连接权重W了,那这些连接权重如何影响输出呢?现在假设输入层第i个节点到隐层第j个节点的连接权重发生了一个很小的变化ΔWij,那么这个ΔWij将会对输出Wij*x产生影响,导致输出sj也出现一个变化Δsj,然后产生Δθ(sj),然后传到各个输出层,最后在所有输出层都产生一个误差Δe。所以说,权重的调整将会使得输出结果产生变化,那么如何使这些输出结果往正确方向变化呢?这就是接下来的任务:如何调整权重。首先,误差表达式为:
其中ej为第j个节点的误差值,yj上边带个横线(抱歉,Mac上实在打不出来)代表模型在这个节点的实际输出,yj代表这个节点期望输出,采用平方是为了消除正负值的影响。所以,用L(e)代替上边的式子,所以现在我们的目标变成了求L(e)在W上的梯度。
何为梯度?在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。所以,L(e)在W上的梯度就是让L(e)在这W上增长最快(当然是下降),也就是为了减少误差减少的最快。
用w1ij表示输入层第i个节点到隐层第j个节点的连接权重,w2ij表示隐层第i个节点到输出层第j个节点的连接权重,s1j表示隐层第j个节点的输入,s2j表示输出层第j个节点的输入,1表示输入层权重,2表示输出层的权重。(为什么有反向权重?反向传播不需要反向权重么?)那么有:
上式利用链式求导法,分成了两个复合函数,分别求L在是s1j和s1j在w1ij上的梯度。因为:(MP网络输出公式)
所以求s1j在w1ij上梯度就相当于求xi
于是乎
接下来,由于s1j对所有输出层(输出层也可能有多个单元哦)都有影响,所以(继续链式求导)
因为需要反向推导输出层的输入
所以继续链式求导
所以将前面的式子综合起来得
声明一个新的变量来表示L在slj上的梯度
则隐藏层的L在slj上的梯度为
输出层的为
到此,可以看出:输出层每个节点都会得到一个误差e,把e作为输出层反向输入,这时候就像是输出层当输入层一样把误差往回传播,先得到输出层δ,然后将输出层δ根据连接权重往隐层传输,一直到达输入层,得到所有的δ,然后更新权重就完成了反向传播。
以上就是MP和BP神经网络的工作原理。