详解神经网络反向传播算法之Further into Backpropagation

本文相关代码可以从Backpropagation下载

在上一篇文章小白也能看懂的BP反向传播算法之Let's practice Backpropagation，我们计算了一个带sigmoid函数的嵌套网络的反向传播！从这篇文章开始，我们正式进入实际的神经网络的反向传播！本文将以一个两层的神经网络结构为例子，并且利用矩阵的方法实现神经网络的反向传播训练算法！

Lets get started!!!

神经网络的结构如下:

image.png

上图的神经网络包括两层网络。第一层是输入层，包括三个神经元，第二层也就是输出层，包括了两个神经元。标准的神经网络中，sigmoid层也就是激活函数，是输出层的一部分，这里为了反向传播时计算微分更直观，就将其分开！

对于不了解基本神经网络的同学可以参考,对于不了解激活函数的同学可以参考‘神经网络’初探

我们下面来分析这个神经网络。首先，三个输入值被输入到输入层的三个节点中，因此我们的输入，用矩阵表示，应该是三维的。然后输入层将和各自的权重相乘，得到输出层，这里和权重的相乘，可以简化成矩阵的乘法运算。然后再输入到sigmoid函数中，进行激活计算，得到一个0-1之间的输出值。最后输出到cost function中，进行误差的计算，这里的cost function可以选取不同的计算函数，这里我们用交叉熵函数作为代价函数， cross-entropy 。单纯对于研究反向传播来说，我们都可以不需要知道这些一层层的函数是干嘛的，因为我们反向传播要求的只是微分而已。只要这些函数是可微的，不管结构在复杂，无非是链式求导的时候多求几个微分而已！反向传播的本质就是在微分的计算！

Aim

误差当然是越小越好，所以我们训练网络的目标是将cost function的值减小，这和我们之前几篇文章将输出结果增加正好是相反的，其实也很简单，只需要在更新的时候，减去步长和微分的乘积就行，将之前的＋变成－！具体可以参考梯度下降法
这里我们要更新的是权重的值，所以更新的方法如下：

image.png

这里的Wij代表，第i个输入节点到第j的输出节点的权重！
只需要求出costfunction关于每个权重的微分即可！

首先，我们自然要先进行正向传播，也就是正向计算最后的输出cost function！

Forward Propagation

首先，我们将输入矩阵化，就是一个1*3的矩阵：

image.png

如果我们有多个样本的输入值，比如有n个输入，那么输入矩阵就可以写成n*3的矩阵！

权重矩阵如下：

image.png

然后输入层到输出层的计算，就可以简化成，两个矩阵的相乘：

image.png

正好得到一个 1x2 的矩阵，对应输出层的两个神经元，符合我们的预期，然后我们给第一个输出层的神经元标记y1，给第二个神经元标记为y2。

image.png

然后再进行激活函数的计算

image.png

Cost function
得到输出层的输出并进行激活函数计算之后，就要输入到cost function中计算errors！。这里我们采用的交叉熵代价函数， cross-entropy

image.png

这里p是预期的值，q是我们经过神经网络计算得到的预测值，具体交叉熵函数的意义，可以参考 cross-entropy

image.png

而我们只要知道我们要将C的值降低，利用反向传播算法，降低C的输出，所以我们就要求得C的微分，首先我们把C展开：

image.png

然后将我们网络中计算得到的输出层的输出带入进去：

image.png

这样我们就分析完了怎么进行这个神经网络的正向传播！

Backpropagation

反向传播之前，我们先回顾一下，每一层的输出结果

激活函数层的输出结果

image.png

输出层的输出结果

image.png

权重矩阵

image.png

输入层

image.png

明确了每层的值之后，我们要切记，我们反向传播所需的就是关于权重的微分，也就是

image.png

也就是我们要想办法求出C关于各个权重的微分！
求微分的基本思路和之前是一样的，不管网络的结构多复杂，根本都是利用链式法则，一层层的从输出求导到输入！这里，我们会采取矩阵的算法来进行微分的求解，这可以让我们的求解方法更适合于编写程序，并且更直观！

首先我们看输出C是关于sigmoid层的输出y0的函数，然后y0又是关于输出层的输出y的函数，y同时又是输入层x与权重相乘而得来的。所以，基本就明确了，我们需要先求取C关于y0的微分，再求取y0关于y的微分，然后求取y关于w的微分，最后又链式法则相乘在一起，就得到了C关于w的微分!

首先从cost function到sigmoid layer

image.png

我们可以很容易写出微分：

image.png

写成矩阵的形式

image.png

从sigmoid层到输出层的微分，就是求取sigmoid函数的微分

image.png

变成矩阵的形式就是：

image.png

从输出层到输入层的微分就是关于权重的微分，我们先看y关于权重的形式

image.png

从这个形式不难得出关于权重的微分就是：

image.png

这样我们就可以运用链式法则，求取C关于权重W的微分了：

image.png

将每个微分的值带入：

image.png

将六个微分全部求取出来就是：

image.png

不难写成矩阵的形式：

image.png

这里T代表矩阵的转置，X代表矩阵的乘法，圆圈加点代表矩阵对应元素相乘，也就是element-wise product。

最后，我们就可以得到完整的权重更新的法则：

image.png

根据以上计算出的更新法则，编写python代码就很直观了

import numpy as np


def sigmoid(x):
    return 1/(1+np.exp(-x))


def derivative_sigmoid(x):
    return np.multiply(sigmoid(x), (1-sigmoid(x)))


# initialization
# X : 1*3
X = np.matrix("2, 4, -2")
# W : 3*2
W = np.random.normal(size=(3, 2))
# label
ycap = [0]
# number of training of examples
num_examples = 1
# step size
h = 0.01
# forward-propogation
y = np.dot(X, W)
y_o = sigmoid(y)
# loss calculation
loss = -np.sum(np.log(y_o[range(num_examples), ycap]))
print(loss)     # outputs 3.6821105514(for you it would be different due to random initialization of weights.)
# backprop starts
temp1 = np.copy(y_o)
# implementation of derivative of cost function with respect to y_o
temp1[range(num_examples), ycap] = 1 / -(temp1[range(num_examples), ycap])
temp = np.zeros_like(y_o)
temp[range(num_examples), ycap] = 1
# derivative of cost with respect to y_o
dcost = np.multiply(temp, temp1)
# derivative of y_o with respect to y
dy_o = derivative_sigmoid(y)
# element-wise multiplication
dgrad = np.multiply(dcost, dy_o)
dw = np.dot(X.T, dgrad)
# weight-update
W -= h * dw
# forward prop again with updated weight to find new loss
y = np.dot(X, W)
yo = sigmoid(y)
loss = -np.sum(np.log(yo[range(num_examples), ycap]))
print(loss)     # 3.45476397276 outpus (again for you it would be different!)

运行程序，就会看到，进行反向传播，C的值也就是代价函数减少了！（由于初始权重是随机生成的，所以每次运行结果就不尽相同，但可以确定的，反向传播后的输出结果相对之前一定是减小的）

待续

这篇文章将会在此结束！我们已经成功将反向传播的计算扩展到真实的两层的神经网络中，并且将计算过程矩阵化！下一篇就是反向传播算法的终结篇，将会实现一个多层的神经网络的反向传播，并且运用动态规划算法对反向传播中微分的计算进行优化！

本文相关代码可以从Backpropagation下载

最后编辑于：2022.12.07 17:24:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,001评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,210评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,874评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,001评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,022评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,005评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,929评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,742评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,193评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,427评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,583评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,305评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,911评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,564评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,731评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,581评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,478评论 2赞 352

详解神经网络反向传播算法之Further into Backpropagation

Lets get started!!!

Aim

Forward Propagation

Backpropagation

待续

推荐阅读更多精彩内容