导言
动机:为了高效的设计和调试神经网络,理解反向传播的机理是很重要的。
问题描述:有了函数f(x)我们对于计算f在x点的梯度很感兴趣。
在神经网络中,f相应于损失函数和输入x将组成训练集和神经网络权重,比如损失将是SVM损失函数而输入既是训练数据也是权重,既是我们可以很快的使用后向传播计算出梯度,实际上我们通常也仅仅计算每一个参数的梯度,所以我们可以使用它来实现一个参数的更新,然而正如我们在课程中后面会看到的x仍然是有用的,比如为了可视化神经网络在做什么。
计算
首先看最简单的例子:
反向传播是一个精美的本地进程。电路图中的每个门都会获得一些输入,可以立即计算两件事情:1.其输出值和2.其输入的本地梯度相对于其输出值。注意,门可以完全独立完成,而不知道它们嵌入的全电路的任何细节。但是,一旦正向通过结束,在反向传播期间,门将最终了解其输出值的梯度在整个电路的最终输出。连锁规则说,门应该采用该梯度,并将其乘以其通常为其所有输入计算的每个梯度。
所以,后向传播其实是门之间的互相交流,通过梯度信号来交流,是增加还是减少,增加减少多大程度,来是的最后的输出结果更高。
模块度
上面介绍的门是相对来说任意的,任何可微的函数都可以作为一个门,并且可以把多个门集合到一个里面或者分解一个函数到多个门中。
可以用下图来表示:
分阶段反向传播。如上面的代码所示,在实践中,将前进路径分解为容易反向推进的阶段总是有帮助的。例如,我们创建了一个中间变量点,它保存了w和x之间的点积的输出。在反向通过期间,我们然后依次计算(反向顺序)保存这些变量的梯度的相应变量(例如,ddot,最后dw,dx)。
本节的要点是,反向传播如何执行的细节以及我们认为是门的前向功能的哪些部分是方便的问题。它有助于了解表达式的哪些部分具有容易的本地渐变,使得它们可以用最少的代码和努力链接在一起。
案例 分阶段计算
下面看以下的案例:
x = 3 # example values
y = -4
# forward pass
sigy = 1.0 / (1 + math.exp(-y)) # sigmoid in numerator #(1)
num = x + sigy # numerator #(2)
sigx = 1.0 / (1 + math.exp(-x)) # sigmoid in denominator #(3)
xpy = x + y #(4)
xpysqr = xpy**2 #(5)
den = sigx + xpysqr # denominator #(6)
invden = 1.0 / den #(7)
f = num * invden # done! #(8)
有几点需要注意:首先应该将计算过的变量放入缓存,为了后巷传递变量应该把一些变量存储,在实际中你想要结构化这些变量,所以他们在后向传播中能够可用。另外,前向的表达式中用到x和y多次,所以当我们使用后向传播的时候应该慎重使用+=而不是=,以在这些变量上积累梯度,而不是直接替换掉,这个符合多变量链式规则。
后向传播流的模式
在这幅图中,add gate 会将梯度平等的传递给输入节点,无论前向的节点传递了什么值。
而max gate 规定了梯度传递的路线,他只会传递给特定的一个路线。
multiply gate 会交换传入的梯度。
向量梯度
当两个向量相乘的时候,如何找到梯度是比较难的。
# forward pass
W = np.random.randn(5, 10)
X = np.random.randn(10, 3)
D = W.dot(X)
# now suppose we had the gradient on D from above in the circuit
dD = np.random.randn(*D.shape) # same shape as D
dW = dD.dot(X.T) #.T gives the transpose of the matrix
dX = W.T.dot(dD)
使用维度分析!请注意,您不需要记住dW和dX的表达式,因为它们容易根据维度重新导出。例如,我们知道权重dW上的梯度在计算之后必须与W的大小相同,并且必须依赖于X和dD的矩阵乘法(如同时X,W都是单个数字的情况)而不是矩阵)。总是有一种实现这一点的方法,以便维度得到解决。例如,X大小为[10×3],dD大小为[5×3],所以如果我们想要dW和W具有[5×10]的形状,那么实现这一点的唯一方法是使用dD.dot XT),如上所示。
使用小的,明确的例子。有些人可能会发现很难得出一些向量化表达式的渐变更新。我们的建议是明确地写出一个最小的矢量化示例,导出纸上的渐变,然后将模式推广到其有效的向量化形式。