反向传播算法

反向传播算法(Backpropagation Algorithm,简称BP算法)是深度学习的重要思想基础,本文将介绍该算法的原理。


上图是一个简单的神经网络,我们用它来实现二分类。我们给它一个输入样本(x_1, x_2),通过前向运算得到输出 \hat{y},输出值\hat{y}的值域为[0,1],例如\hat{y}的值越接近0,代表该样本是"0"类的可能性越大,反之是"1"类的可能性大。

一、首先我们来看看前向传播的过程:

输入的样本为:\vec{a}=\left(x_{1}, x_{2} \right)

​第一层网络参数为:

​第二层网络参数为:

​第三层网络参数为:

1、第一层隐藏层:

​第一层有三个神经元neu_{1}neu_{2}neu_{3}。该层的输入为:z^{(1)}=W^{(1)} *(\vec{a})^{T}+\left(b^{1}\right)^{T} ,故此可得:

z_{1}=w_{ x_{1}, 1} * x_{1}+w_{x_{2}, 1} * x_{2}+b_{1}

z_{2}=w_{x_{1}, 2} * x_{1}+w_{x_{2}, 2} * x_{2}+b_{2}

z_{3}=w_{x_{1}, 3} * x_{1}+w_{x_{2}, 3} * x_{2}+b_{3}

假设第一层的激活函数为f(x)(上图中的激活函数都标了一个下标,一般情况下,同一层的激活函数都一样,不同层可以选择不同的激活函数),那么第一层的输出为:f_{1}(z_{1})f_{2}(z_{1})f_{3}(z_{1})

​2、第二层隐藏层:

第二层有两个神经元neu_{4}neu_{5}。该层的输入为:\mathbf{z}^{(2)}=W^{(2)} *\left[\mathbf{z}_{1}, \mathbf{z}_{2}, \mathbf{z}_{3}\right]^{T}+\left(b^{2}\right)^{T} ,即第二层的输入是第一层的输出乘以第二层的权重,再加上第二层的偏置,所以第二层两个神经元的输入为:
\mathrm{z}_{4}=w_{1,4} * \mathrm{z}_{1}+w_{2,4} * \mathrm{z}_{2}+w_{3,4} * \mathrm{z}_{3}+b_{4}

\mathrm{z}_{5}=w_{1,5} * \mathrm{z}_{1}+w_{2,5} * \mathrm{z}_{2}+w_{3,5} * \mathrm{z}_{3}+b_{5}

所以第二层的输出为:f_{4}(z_{4})f_{5}(z_{5})

​3、输出层:

​输出层只有一个神经元neu_{6}。该层的输入为:z^{(3)}=W^{(3)} *\left[z_{4}, z_{5}\right]^{T}+\left(b^{3}\right)^{T} 即:z_{6}=w_{4,6} * \mathrm{z}_{4}+w_{5,6} * \mathrm{z}_{5}+b_{6}

​因为该网络要解决一个二分类的问题,所以输出层的激活函数也可以使用一个sigmoid型函数,神经网络最后的输出为:f_{6}(z_{6})

二、反向传播的过程

上面我们已经知道了数据沿着神经网络前向传播的过程,现在我们来看看反向传播的过程。反向传播算法会对特定样本的预测输出和理想输出进行比较,然后确定网络的每个权重的更新幅度。假设我们使用随机梯度下降的方式来学习神经网络的参数,损失函数定义为L(y,\hat{y}),其中y是该样本的真实列表。使用梯度下降进行参数学习,我们需要计算出损失函数关于神经网络中各层参数(权重w和偏置b)的偏导数。

​假设我们要对第k层隐藏层的参数W^{(k)}b^{(k)}求偏导数,即求\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}\frac{\partial L(y, \hat{y})}{\partial b^{(k)}}
假设z^{(k)}代表第k层神经元的输入,即z^{(k)}=W^{(k)}*n^{(k-1)}+b^{(k)},其中n^{(k-1)}为前一层神经元的输出,根据链式法则有:\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{(k)}}{\partial W^{(k)}} \frac{\partial L(y, \hat{y})}{\partial b^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{(k)}}{\partial b^{(k)}}
因此,我们只需要分别计算偏导数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}\frac{\partial z^{(k)}}{\partial W^{(k)}}\frac{\partial z^{(k)}}{\partial b^{(k)}}

1、计算偏导数\frac{\partial z^{(k)}}{\partial W^{(k)}}\frac{\partial z^{(k)}}{\partial b^{(k)}}

上式中,W_{m:}^{(k)}代表第k层神经元的权重矩阵W^{(k)}的第m行,W_{mn}^{(k)}代表第k层神经元的权重矩阵W^{(k)}的第m行中的第n列。

​偏置b是一个常数项,因此偏导数的计算也很简单:



得到计算结果是单位矩阵。

2、计算偏导数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}

​偏到数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}又称为误差项(也称“灵敏度”),一般用\delta表示,例如\delta^{(1)}=\frac{\partial L(y, \hat{y})}{\partial z^{(1)}}是第一层神经元的误差项,其值的大小代表了第一层神经元对于最终总误差的影响大小。

​根据前向计算,我们知道第k+1层的输入与第k层输出的关系为:\mathbf{z}^{(k+1)}=W^{(k+1)} * n^{(k)}+b^{k+1}

​又因为n^{(k)}=f_{k}\left(z^{(k)}\right),根据链式法则,我们可以得到\delta^{(k)}为:
\begin{array}{l}{\delta^{(k)}=\frac{\partial \mathrm{L}(\mathrm{y}, \hat{\mathrm{y}})}{\partial z^{(k)}}} \\ {=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \frac{\partial \mathrm{L}(\mathrm{y} \hat{\mathrm{y}})}{\partial z^{(k+1)}}} \\ {=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \delta^{(k+1)}} \\ {=f_{k}^{\prime}\left(z^{(k)}\right) *\left(\left(W^{(k+1)}\right)^{T} * \delta^{(k+1)}\right)}\end{array}

​由上式我们可以知道,第k层神经元的误差项\delta^{(k)}是由第k+1层的误差项乘以第k+1层的权重,再乘以第k层激活函数的导数(梯度)得到的。这就是误差的反向传播

​到这里,我们可以分别计算出损失函数关于权重和偏置的偏导数了:
\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{k}}{\partial W^{k}}=\delta^{k} *\left(n^{(k-1)}\right)^{T}
\frac{\partial L(y, \hat{y})}{\partial b^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{k}}{\partial b^{k}}=\delta^{k}

​有了上面两个偏导数,我们就能够利用随机梯度下降算法来更新参数。

​这里有google教程里面讲的BP算法的推算过程:https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/?hl=zh-cn

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342