搭建神经网络块(Building blocks of deep neural networks)
你已经看到过正向反向传播的基础组成部分了,它们也是深度神经网络的重要组成部分,现在我们来用它们建一个深度神经网络。
这是一个层数较少的神经网络,我们选择其中一层(方框部分),从这一层的计算着手。
在第l层你有参数W^([l])和b^([l]),正向传播里有输入的激活函数,输入是前一层a^([l-1]),输出是a^([l]),
我们之前讲过
z^([l])=W^([l]) a^([l-1])+b^([l]),
a^([l])=g^([l]) (z^([l])),
那么这就是你如何从输入a^([l-1])走到输出的a^([l])。
之后你就可以把z^([l])的值缓存起来,我在这里也会把这包括在缓存中,因为缓存的z^([i])对以后的正向反向传播的步骤非常有用(就是在反向传播中会再次使用这个值)。
然后是反向步骤或者说反向传播步骤,同样也是第l层的计算,你会需要实现一个函数输入为da^([l]),输出da^([l-1])的函数。
一个小细节需要注意,输入在这里其实是da^([l])以及所缓存的z^([l])值,之前计算好的z^([l])值,除了输出da^([l-1])的值以外,也需要输出你需要的梯度dW^([l])和db^([l]),这是为了实现梯度下降学习。
这就是基本的正向步骤的结构,我把它成为称为正向函数,类似的在反向步骤中会称为反向函数。
总结起来就是,在l层,你会有正向函数,输入a^([l-1])并且输出a^([l]),为了计算结果你需要用W^([l])和b^([l]),以及输出到缓存的z^([l])。
然后用作反向传播的反向函数,是另一个函数,输入da^([l]),输出da^([l-1]),你就会得到对激活函数的导数,也就是希望的导数值da^([l])。
a^([l-1])是会变的,前一层算出的激活函数导数。在这个方块(第二个)里你需要W^([l])和b^([l]),最后你要算的是dz^([l])。然后这个方块(第三个)中,这个反向函数可以计算输出dW^([l])和db^([l])。
用红色箭头标注标注反向步骤,吴恩达老师把这些箭头涂成红色。
然后如果实现了这两个函数(正向和反向),然后神经网络的计算过程会是这样的:
把输入特征a^([0]),放入第一层并计算第一层的激活函数,用a^([1])表示,你需要W^([1])和b^([1])来计算,之后也缓存z^([l])值。之后喂到第二层,第二层里,需要用到W^([2])和b^([2]),你会需要计算第二层的激活函数a^([2])。后面几层以此类推,直到最后你算出了a^([L]),第L层的最终输出值^y。在这些过程里我们缓存了所有的z值,这就是正向传播的步骤。
对反向传播的步骤而言,我们需要算一系列的反向迭代,就是这样反向计算梯度,你需要把da^([L])的值放在这里,然后这个方块会给我们〖da〗^([L-1])的值,
以此类推,直到我们得到〖da〗^([2])和〖da〗^([1]),你还可以计算多一个输出值,就是da^([0]),但这其实是你的输入特征的导数,并不重要,起码对于训练监督学习的权重不算重要,你可以止步于此。反向传播步骤中也会输出dW^([l])和db^([l]),这会输出dW^([3])和db^([3])等等。目前为止你算好了所有需要的导数,稍微填一下这个流程图。
神经网络的一步训练包含了,从a^([0])开始,也就是 x 然后经过一系列正向传播计算得到y^,之后再用输出值计算这个(第二行最后方块),再实现反向传播。现在你就有所有的导数项了,W也会在每一层被更新为W=W-αdW,b也一样,b=b-αdb,反向传播就都计算完毕,我们有所有的导数值,那么这是神经网络一个梯度下降循环。
继续下去之前再补充一个细节,概念上会非常有帮助,那就是把反向函数计算出来的z值缓存下来。
当你做编程练习的时候去实现它时,你会发现缓存可能很方便,可以迅速得到W^([l])和b^([l])的值,非常方便的一个方法,在编程练习中你缓存了z,还有W和b对吧?从实现角度上看,我认为是一个很方便的方法,可以将参数复制到你在计算反向传播时所需要的地方。
现在你们见过实现深度神经网络的基本元件,在每一层中有一个正向传播步骤,以及对应的反向传播步骤,以及把信息从一步传递到另一步的缓存。
好了,上面就是基本的神经模块的搭建了,要记得里面的步骤,因为这个在你看代码的时候也是很有用的,后续我会发上一些代码出来供大家参看,到时候就更加清楚了,喜欢就关注我那吶,持续更新中~