大名鼎鼎的BackPropagation算法,是如今神经网络/深度学习的基础优化算法。
其实在1974年Paul Werbos就提出了利用backprop优化求解神经网络的可能性,真正火起来是1986年Rumelhart和Hinton一起重新发现,通过backpropgation算法可以有效地优化求解神经网络。
随着神经网络的今年飞速发展,如今的深度学习,背后的优化策略就是基于这套简单有效的BP算法。
关于BP算法的直观解释和理解,可以参考下面的回答:
如何直观地解释 back propagation 算法?-胡逸夫的回答
感谢作者非常直观、详细地解释了BP算法的原理,并给出了直观的理解方式。
但是我在浏览大量对于BP算法的解释,都基本止步于此。
对于BP算法的解释,其实已经很到位了,但是具体到神经网络中的参数优化,个人感觉作者还没讲完,因此很多人可能会对各层参数的优化存在疑问。
如上图所示,我们假设输入是a,b, 输出是e,h(x),g(x),z(x)可以看做是中间的hidden layer。
那么可以得到: e = z(h(a,b),g(b))
通过作者推导的自顶而下的反向传播,我们可以根据链式求导法则,将求导的过程分割开来。
但是要注意的是,上图中并没有任何可学习的参数。
在神经网络中,我们要学习的是各层的参数,要更新的其实是各层的参数,而神经网络的输入(这里可以看做是a,b)其实是固定的。
所以我们实际要调整的是各层的参数(weights,bias等),而这样的过程并没有在上图中反应出来。
我们考虑各层有参数的情况,如下图所示。
这样的情况才是我们神经网络bp中经常遇到的,此时我们需要bp更新的是其中的参数w1,w2,w3,w4,而不是a,b.
此时我们考虑其中某一层的参数更新,如下图所示:
在这一层中,我们实际要更新的参数是w3,
我们的bottom输入是b,top输出是d,
我们要得到的是整个网络loss function关于w3的偏导,然后根据w3=w3-lr x gradient对w3进行更新。
根据链式法则,我们发现其实top中我们已得到loss function关于top blob的偏导。那么此时只要计算top blob关于要学习的参数的偏导,就可以根据链式运算得loss function关于要学习的参数的偏导,就可以进行参数更新了。
在上图中,我们的top blob是d,要学习的参数是w3. d与w3的关系是d=w3 x b+1
可以得到d关于w3的偏导是b,而b的取值我们根据前向传播已知为1。
所以loss关于w3的偏导为3*1=3,这样我们就可以根据bp进行w3的更新了。
同时我们计算该层function关于bottom的偏导,继续回传,该层的bottom就可以作为前一层的top,这样就实现了神经网络中对各层参数的更新。
后续将简单介绍以下Caffe中backwar部分的实现,未完待续。。
话说简书不支持数学公式真是反人类啊。。。