PyTorch之HOOK——获取神经网络特征和梯度的有效工具

本文首发于简书 西北小生_ 的博客:https://www.jianshu.com/u/898c7641f6ea,未经允许,禁止转载!

为了更深入地理解神经网络模型,有时候我们需要观察它训练得到的卷积核、特征图或者梯度等信息,这在CNN可视化研究中经常用到。其中,卷积核最易获取,将模型参数保存即可得到;特征图是中间变量,所对应的图像处理完即会被系统清除,否则将严重占用内存;梯度跟特征图类似,除了叶子结点外,其它中间变量的梯度都被会内存释放,因而不能直接获取。
最容易想到的获取方法就是改变模型结构,在forward的最后不但返回模型的预测输出,还返回所需要的特征图等信息。

如何在不改变模型结构的基础上获取特征图、梯度等信息呢?

Pytorch的hook编程可以在不改变网络结构的基础上有效获取、改变模型中间变量以及梯度等信息。
hook可以提取或改变Tensor的梯度,也可以获取nn.Module的输出和梯度(这里不能改变)。因此有3个hook函数用于实现以上功能:

Tensor.register_hook(hook_fn),
nn.Module.register_forward_hook(hook_fn),
nn.Module.register_backward_hook(hook_fn).

下面对其用法进行一一介绍。

1.Tensor.register_hook(hook_fn)

功能:注册一个反向传播hook函数,用于自动记录Tensor的梯度。
PyTorch对中间变量和非叶子节点的梯度运行完后会自动释放,以减缓内存占用。什么是中间变量?什么是非叶子节点?


Tensor计算

上图中,a,b,d就是叶子节点,c,e,o是非叶子节点,也是中间变量。

In [18]: a = torch.Tensor([1,2]).requires_grad_() 
    ...: b = torch.Tensor([3,4]).requires_grad_() 
    ...: d = torch.Tensor([2]).requires_grad_() 
    ...: c = a + b 
    ...: e = c * d 
    ...: o = e.sum()     

In [19]: o.backward()

In [20]: print(a.grad)
tensor([2., 2.])

In [21]: print(b.grad)
tensor([2., 2.])

In [22]: print(c.grad)
None

In [23]: print(d.grad)
tensor([10.])

In [24]: print(e.grad)
None

In [25]: print(o.grad)
None

可以从程序的输出中看到,a,b,d作为叶子节点,经过反向传播后梯度值仍然保留,而其它非叶子节点的梯度已经被自动释放了,要想得到它们的梯度值,就需要使用hook了。

我们首先自定义一个hook_fn函数,用于记录对Tensor梯度的操作,然后用Tensor.register_hook(hook_fn)对要获取梯度的非叶子结点的Tensor进行注册,然后重新反向传播一次:

In [44]: def hook_fn(grad):
    ...:     print(grad)
    ...:

In [45]: e.register_hook(hook_fn)
Out[45]: <torch.utils.hooks.RemovableHandle at 0x1d139cf0a88>

In [46]: o.backward()
tensor([1., 1.])

这时就自动输出了e的梯度。

自定义的hook_fn函数的函数名可以是任取的,它的参数是grad,表示Tensor的梯度。这个自定义函数主要是用于描述对Tensor梯度值的操作,上例中我们是对梯度直接进行输出,所以是print(grad)。我们也可以把梯度装在一个列表或字典里,甚至可以修改梯度,这样如果梯度很小的时候将其变大一点就可以防止梯度消失的问题了:

In [28]: a = torch.Tensor([1,2]).requires_grad_() 
    ...: b = torch.Tensor([3,4]).requires_grad_() 
    ...: d = torch.Tensor([2]).requires_grad_() 
    ...: c = a + b 
    ...: e = c * d 
    ...: o = e.sum()                                                            

In [29]: grad_list = []                                                         

In [30]: def hook(grad): 
    ...:     grad_list.append(grad)    # 将梯度装在列表里
    ...:     return 2 * grad    # 将梯度放大两倍
    ...:                                                                        

In [31]: c.register_hook(hook)                                                  
Out[31]: <torch.utils.hooks.RemovableHandle at 0x7f009b713208>

In [32]: o.backward()                                                           

In [33]: grad_list                                                              
Out[33]: [tensor([2., 2.])]

In [34]: a.grad                                                                 
Out[34]: tensor([4., 4.])

In [35]: b.grad                                                                 
Out[35]: tensor([4., 4.])

上例中,我们定义的hook函数执行了两个操作:一是将梯度装进列表grad_list中,二是把梯度放大两倍。从输出中我们可以看到,执行反向传播后,我们注册的非叶子节点c的梯度保存在了列表grad_list中,并且a和b的梯度都变为原来的两倍。这里需要注意的是,如果要将梯度值装在一个列表或字典里,那么首先要定义一个同名的全局变量的列表或字典,即使是局部变量,也要在自定义的hook函数外面。另一个需要注意的点就是如果要改变梯度值,hook函数要有返回值,返回改变后的梯度。

这里总结一下,如果要获取非叶子节点Tensor的梯度值,我们需要在反向传播前
1)自定义一个hook函数,描述对梯度的操作,函数名自拟,参数只有grad,表示Tensor的梯度;
2)对要获取梯度的Tensor用方法Tensor.register_hook(hook)进行注册。
3)执行反向传播。

2.nn.Module.register_forward_hook(hook_fn)和nn.Module.register_backward_hook(hook_fn)

这两个的操作对象都是nn.Module类,如神经网络中的卷积层(nn.Conv2d),全连接层(nn.Linear),池化层(nn.MaxPool2d, nn.AvgPool2d),激活层(nn.ReLU)或者nn.Sequential定义的小模块等,所以放在一起讲。

对于模型的中间模块,也可以视作中间节点(非叶子节点),它的输出为特征图或激活值,反向传播的梯度值都会被系统自动释放,如果想要获取它们,就要用到hook功能。

有名字即可看出,register_forward_hook是获取前向传播的输出的,即特征图或激活值;register_backward_hook是获取反向传播的输出的,即梯度值。它们的用法和上面介绍的register_hook类似。我们先看一下hook_fn的定义:

对于register_forward_hook(hook_fn),其hook_fn函数定义如下:

def forward_hook(module, input, output):
    operations

这里有3个参数,分别表示:模块,模块的输入,模块的输出。函数用于描述对这些参数的操作,一般我们都是为了获取特征图,即只描述对output的操作即可。

对于register_backward_hook(hook_fn),其hook_fn函数定义如下:

def backward_hook(module, grad_in, grad_out):
    operations

这里也有3个参数,分别表示:模块,模块输入端的梯度,模块输出端的梯度。这里需要特别注意的是,此处的输入端和输出端,是前向传播时的输入端和输出端,也就是说,上面的output的梯度对应这里的grad_out。例如线性模块:o=W*x+b,其输入端为 W,x 和 b,输出端为 o。

如果模块有多个输入或者输出的话,grad_in和grad_out可以是 tuple 类型。对于线性模块:o=W*x+b ,它的输入端包括了W、x 和 b 三部分,因此 grad_input 就是一个包含三个元素的 tuple。

这里注意和 forward hook 的不同:

  1. 在 forward hook 中,input 是 x,而不包括 W 和 b。
  2. 返回 Tensor 或者 None,backward hook 函数不能直接改变它的输入变量,但是可以返回新的 grad_in,反向传播到它上一个模块。

此处的自定义的函数hook_fn也可以自拟名称,但如果两个hook函数同时使用的时候注意名称的区别,一般在函数名里添加对应的forward和backward就不易搞混了。

下面看一个具体用例:

#-*- utf-8 -*-

'''本程序用于验证hook编程获取卷积层的输出特征图和特征图的梯度'''

__author__ = 'puxitong from UESTC'

import torch
import torch.nn as nn
import numpy as np 
import torchvision.transforms as transforms


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3,6,3,1,1)
        self.relu1 = nn.ReLU()
        self.pool1 = nn.MaxPool2d(2,2)
        self.conv2 = nn.Conv2d(6,9,3,1,1)
        self.relu2 = nn.ReLU()
        self.pool2 = nn.MaxPool2d(2,2)
        self.fc1 = nn.Linear(8*8*9, 120)
        self.relu3 = nn.ReLU()
        self.fc2 = nn.Linear(120,10)

    def forward(self, x):
        out = self.pool1(self.relu1(self.conv1(x)))
        out = self.pool2(self.relu2(self.conv2(out)))
        out = out.view(out.shape[0], -1)
        out = self.relu3(self.fc1(out))
        out = self.fc2(out)

        return out


def backward_hook(module, grad_in, grad_out):
    grad_block['grad_in'] = grad_in
    grad_block['grad_out'] = grad_out


def farward_hook(module, inp, outp):
    fmap_block['input'] = inp
    fmap_block['output'] = outp


loss_func = nn.CrossEntropyLoss()

# 生成一个假标签以便演示
label = torch.empty(1, dtype=torch.long).random_(3)

# 生成一副假图像以便演示
input_img = torch.randn(1,3,32,32).requires_grad_()  

fmap_block = dict()  # 装feature map
grad_block = dict()  # 装梯度

net = Net()

# 注册hook
net.conv2.register_forward_hook(farward_hook)
net.conv2.register_backward_hook(backward_hook)

outs = net(input_img)
loss = loss_func(outs, label)
loss.backward()

print('End.')

上面的程序中,我们先定义了一个简单的卷积神经网络模型,我们对第二层卷积模块进行hook注册,既获取它的输入输出,又获取输入输出的梯度,并将它们分别装在字典里。为了达到验证效果,我们随机生成一个假图像,它的尺寸和cifar-10数据集的图像尺寸一致,并且给这个假图像定义一个类别标签,用损失函数进行反向传播,模拟神经网络的训练过程。

在IPython中运行程序后,相应的特征图和梯度就会出现在两个列表fmap_block和grad_block中了。我们看一下它们的输入和输出的维度:

In [17]: len(fmap_block['input'])                                               
Out[17]: 1

In [18]: len(fmap_block['output'])                                              
Out[18]: 1

In [19]: len(grad_block['grad_in'])                                             
Out[19]: 3

In [20]: len(grad_block['grad_out'])                                            
Out[20]: 1

可以看出,第二层卷积模块的输入和输出都只有一个,即相应的特征图。而输入端的梯度值有3个,分别为权重的梯度,偏差的梯度,以及输入特征图的梯度。输出端的梯度值只有一个,即输出特征图的梯度。正如上面强调的,输入端即使有W, X和b三个,对于前项传播来说只有X是其输入,而对于反向传播来说,3个都是输入。输出端3项的梯度值排列的顺序是什么呢,我们来看一下3项梯度的具体维度:

In [21]: grad_block['grad_in'][0].shape                                         
Out[21]: torch.Size([1, 6, 16, 16])

In [22]: grad_block['grad_in'][1].shape                                         
Out[22]: torch.Size([9, 6, 3, 3])

In [23]: grad_block['grad_in'][2].shape                                         
Out[23]: torch.Size([9])

从输出端梯度的维度可以判断,第一个显然是特征图的梯度,第二个则是权重(卷积核/滤波器)的梯度,第三个是偏置的梯度。为了验证梯度和这些参数具有同样的维度,我们再来看看这三个值前向传播时的维度:

In [24]: fmap_block['input'][0].shape                                           
Out[24]: torch.Size([1, 6, 16, 16])

In [25]: net.conv2.weight.shape         
Out[25]: torch.Size([9, 6, 3, 3])

In [26]: net.conv2.bias.shape                                                   
Out[26]: torch.Size([9])

可以看到,我们的判断是正确的。

最后需要注意的一点是,如果需要获取输入图像的梯度,一定要将输入Tensor的requires_grad属性设为True。

原创不易,有用请点赞支持~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容