PyTorch中的backward

注意:简书数学公式支持不好,建议移步我的博客获得更佳的阅读体验。

接触了PyTorch这么长的时间,也玩了很多PyTorch的骚操作,都特别简单直观地实现了,但是有一个网络训练过程中的操作之前一直没有仔细去考虑过,那就是loss.backward(),看到这个大家一定都很熟悉,loss是网络的损失函数,是一个标量,你可能会说这不就是反向传播吗,有什么好讲的。

但是不知道大家思考过没有,如果loss不是一个标量,而是一个向量,那么loss.backward()是什么结果呢?

大家可以去试试,写一个简单的小程序

import torch as t
from torch.autograd import Variable as v
x = v(t.ones(2, 2), requires_grad=True)
y = x + 1
y.backward()

运行一下程序,恭喜你报错了,错误显示如下

backwarderror.png

我们来读一读这个错误是什么意思。backward只能被应用在一个标量上,也就是一个一维tensor,或者传入跟变量相关的梯度。

嗯,前面一句话很简单,backward应用在一个标量,平时我们也是这么使用的,但是后面一句话,with gradient w.r.t variable是什么鬼,传入一个变量相关的梯度。不理解啊不理解,看不懂没关系我们还可以做实验来解决这个问题,俗话说自己动手丰衣足食(我也想做个伸手党去看看别人写的,然后不幸地是并没有什么人写过这方面的东西)。

首先我们开始做一个简单的实验,就是复习一下标量的形式

# simple gradient
a = v(t.FloatTensor([2, 3]), requires_grad=True)
b = a + 3
c = b * b * 3
out = c.mean()
out.backward()
print('*'*10)
print('=====simple gradient======')
print('input')
print(a.data)
print('compute result is')
print(out.data[0])
print('input gradients are')
print(a.grad.data)

很简单,我们把数学表达式写出来,传入的参数$x_1 = 2, x_2 = 3$,特别注意Variable里面默认的参数requires_grad=False,所以这里我们要重新传入requires_grad=True让它成为一个叶子节点。
$$
a = (x_1, x_2) \quad b = (x_1 + 3, x_2 + 3) \quad c = (3 * (x_1+3)^2, 3(x_2 + 3)^2) \quad out=\frac{3((x_1+3)^2 + (x_2 + 3)^2)}{2}
$$
那么我们对其求偏导也很简单
$$
\frac{\partial out}{\partial x_1} = 3(x_1 + 3)|{x_1=2}=15 \quad \frac{\partial out}{\partial x_2} = 3(x_2 + 3)|{x_2=3} = 18
$$
这样依靠简单的微积分知识我们就能够算出他们的结果,运行一下程序,确保结果一致,ok。

Paste_Image.png

下面我们研究一下如何能够对非标量的情况下使用backward,下面开始做实验(瞎试)。

m = v(t.FloatTensor([[2, 3]]), requires_grad=True)
n = v(t.zeros(1, 2))
n[0, 0] = m[0, 0] ** 2
n[0, 1] = m[0, 1] ** 3

首先我们定义好输入$m = (x_1, x_2) = (2, 3)$,然后我们做的操作就是$n = (x_1^2, x_2^3)$,这样我们就定义好了一个向量输出,结果第一项只和$x_1$有关,结果第二项只和$x_2$有关,那么求解这个梯度,我们知道$\frac{\partial n_1}{\partial x_1} = 2 x_1 = 4, \frac{\partial n_2}{\partial x_2} = 3 x_2^2 = 27$ ,下面我们开始探究如何能够让他调用backward。

第一想法就是里面这个参数是要求梯度的对象,我们这样调用n.backward(m.data),有有报错诶,是不是成功了,我真的是个天才,这么难的东西都能想到,等等,我好想看到了一个很神奇的结果。

Paste_Image.png

这是什么鬼,这跟说好的结果不一样啊,我们想要的结果是4和27,现在给我们的结果是8和81,为什么会出现这样神奇的结果呢,想不通啊。我们看看我们传入的参数是m.data,这是一个(2, 3)的向量,我们希望得到的梯度是(4, 27),好像($42=8, 273=81$),我的内心毫无波动,甚至有点想笑,似乎backward将我传入的参数m.data乘上了得到的梯度,既然要乘上我传入的参数,那么我就给你传入1,这样总能得到我想要的结果了吧,n.backward(t.FloatTensor([[1, 1]])),看看结果呢

backwardresult2.png

哇,跟我们想要的结果一样诶,撒花,我们解决了一个大问题,就是这么简单,扔进去一个1就可以了,这个问题也没有那么难嘛,哈哈哈。

似乎又有一点不对,如果这么简单那么写PyTorch的人为什么不把这一步直接集成进去,那我们不就不会遇到这个问题了嘛。

Paste_Image.png

我们来试试另外一种情况

m = v(t.FloatTensor([[2, 3]]), requires_grad=True)
j = t.zeros(2 ,2)
k = v(t.zeros(1, 2))
m.grad.data.zero_()
k[0, 0] = m[0, 0] ** 2 + 3 * m[0 ,1]
k[0, 1] = m[0, 1] ** 2 + 2 * m[0, 0]

上面的代码写成数学表达式就是$m = (x_1=2, x_2=3), k = (x_1^2 + 3x_2, x_2^2+2x_1)$,么我们直接对k反向传播k.backward(t.FloatTensor([[1, 1]]),结果是什么呢?

首先我们手动算一算结果是什么。$\frac{\partial (x_1^2 + 3x_2)}{\partial x_1 } = 2x_1=4,\ \frac{\partial (x_1^2 + 3x_2)}{\partial x_2 } = 3,\ \frac{\partial (x_2^2 + 2x_1)}{\partial x_1} = 2,\ \frac{\partial (x_2^2 + 2x_1)}{\partial x_2} = 2x_2 = 6$,我们是希望能够得到上面四个结果,这个时候你可能已经开始怀疑了,能够得到这4个结果吗?我们可以输出结果来看看

backwardresult3.png

非常遗憾,我们只得到了两个结果,并且数值并不对,这个时候你就会疑惑了,到底是哪里出了问题呢,为什么会得到这样的结果呢?

经过不断地尝试,我终于发现了其中的奥秘,k.backward(parameters)接受的参数parameters必须要和k的大小一模一样,然后作为k的系数传回去,什么意思呢,我们通过上面的例子来解释这个问题你就知道了。

我们已经知道我们得到的$k = (k_1, k_2)$,以及传入的参数是1和1,那么是如何得到这6和9这两个结果的呢?

其实第一个结果是通过$1 * \frac{d k_1}{d x_1} + 1 * \frac{d k_2}{d x_1} = 2 x_1 + 2 = 6$这样得到的,是不是有点理解这个操作是怎么完成的了,我们再来看看第二个结果,$ 1 * \frac{d k_1}{d x_2} + 1 * \frac{d k_2}{d x_2} = 3+2 x_2 = 9$,这样我们就得到了这两个结果,原来我们传入的参数是每次求导的一个系数。

我们知道了这个操作具体是怎么完成的,我们就可以求求我们需要的这个jacobian矩阵了,非常简单。

# jacobian
j = t.zeros(2 ,2)
k = v(t.zeros(1, 2))
m.grad.data.zero_()
k[0, 0] = m[0, 0] ** 2 + 3 * m[0 ,1]
k[0, 1] = m[0, 1] ** 2 + 2 * m[0, 0]
k.backward(t.FloatTensor([[1, 0]]), retain_variables=True)
j[:, 0] = m.grad.data
m.grad.data.zero_()
k.backward(t.FloatTensor([[0, 1]]))
j[:, 1] = m.grad.data
print('jacobian matrix is')
print(j)

我们可以得到如下结果

Paste_Image.png

这里我们要注意backward()里面另外的一个参数retain_variables=True,这个参数默认是False,也就是反向传播之后这个计算图的内存会被释放,这样就没办法进行第二次反向传播了,所以我们需要设置为True,因为这里我们需要进行两次反向传播求得jacobian矩阵。

最后我们再举一个矩阵乘法的例子试验一下我们的结果

x = t.FloatTensor([2, 1]).view(1, 2)
x = v(x, requires_grad=True)
y = v(t.FloatTensor([[1, 2], [3, 4]]))

z = t.mm(x, y)
jacobian = t.zeros((2, 2))
z.backward(t.FloatTensor([[1, 0]]), retain_variables=True)  # dz1/dx1, dz2/dx1
jacobian[:, 0] = x.grad.data
x.grad.data.zero_()
z.backward(t.FloatTensor([[0, 1]]))  # dz1/dx2, dz2/dx2
jacobian[:, 1] = x.grad.data
print('=========jacobian========')
print('x')
print(x.data)
print('y')
print(y.data)
print('compute result')
print(z.data)
print('jacobian matrix is')
print(jacobian)

上面是代码,仔细阅读,作为一个小练习回顾一下本篇文章讲的内容,妈妈再也不用担心我不会用backward了。


本文代码已经上传到了github

欢迎查看我的知乎专栏,深度炼丹

欢迎访问我的博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容