卷积神经网络(jupyter笔记pets_more章节 training a model)
我们要学习卷积神经网络,我们先来创建一个卷积神经网络。你知道怎样创建它们,我先创建一个,然后用fit_one_cycle()训练它,解冻它。然后,我要创建一个更大的352 x 352的数据集,再训练它,然后保存它。
gc.collect()
learn = create_cnn(data, models.resnet34, metrics=error_rate, bn_final=True)
learn.fit_one_cycle(3, slice(1e-2), pct_start=0.8)
Total time: 00:52
epoch train_loss valid_loss error_rate
1 2.413196 1.091087 0.191475 (00:18)
2 1.397552 0.331309 0.081867 (00:17)
3 0.889401 0.269724 0.068336 (00:17)
learn.unfreeze()
learn.fit_one_cycle(2, max_lr=slice(1e-6,1e-3), pct_start=0.8)
Total time: 00:44
epoch train_loss valid_loss error_rate
1 0.695697 0.286645 0.064276 (00:22)
2 0.636241 0.295290 0.066982 (00:21)
data = get_data(352,bs)
learn.data = data
learn.fit_one_cycle(2, max_lr=slice(1e-6,1e-4))
Total time: 01:32
epoch train_loss valid_loss error_rate
1 0.626780 0.264292 0.056834 (00:47)
2 0.585733 0.261575 0.048038 (00:45)
learn.save('352')
我们得到了一个CNN。现在我们要弄明白这里面做了什么。要弄明白的方式就是学习怎样生成这个图片:
这是一个热度图(heat map)。这个图片显示了当CNN判断这张图片是什么时,它关注图片里的哪个部分。我们会从头做这个热力图。
现在我们处在课程的这样一个阶段,我假设你们到达了这个阶段,并且还处在这个阶段,就是你们对深入这些细节很有兴趣,并且对深入它们已经做好了准备。我们要学习怎样创建这个热度图,不用fastai库里的东西。我们会用PyTorch里的纯粹的张量计算,我们用这些来真正理解它是怎样运行的。
提醒下,这不是高深的东西,但很多内容大家从未听过,不要期待一次就能弄明白,而是要听课,进入notebook,做些尝试,测试结果。通过研究张量形状和输入输出,来加深你的理解,然后回去再听一遍。试几次,你就会明白了。其实就是很多新概念,因为我们还没有试过用纯的PyTorch的标准算法来做一些东西。
CNN
让我们开始学习卷积神经网络。奇怪的是在课程快结束的时候才学习卷积,这是很少见的。但是你仔细想想, 知道batch norm怎样工作、dropout怎样工作、卷积怎样工作,不如知道如何将它们组合起来、如何用它们完成具体的任务。以及如何将任务完成地更好。现在我们学习到一定程度,希望可以生成热力图。尽管我们把这个方法直接添加到了我们的库里,你可以运行一个函数就能生成。但是你做的越多,你越想用不同的方式来做,又或者在你的研究领域,你会想我能否做得略微不同。你目前的经验,让你知道怎样靠自己做更多的事情。这意味着你需要理解背后的原理。
背后的原理是我们在创建一个像这样的神经网络:
但在三个黄色矩阵中,我们不是要做矩阵乘法,而是做卷积。卷积就是一类矩阵乘法,但其有自己的特性。
你一定要访问下这个网站http://setosa.io/ev/image-kernels/(ev
代表可视化解释explain visually),我们借用这个美妙的动画,它实际上是一个JavaScript程序,你可以自己尝试,这个动画展示了卷积是怎么回事。当我们移动这个小红方框时,你可以看到卷积是怎么计算的。这是一幅图像,黑白或者灰度图像,每一个3×3的小方格,都是可以移动的红色区域。显示了图像中3×3的一小块区域。这里使用的是像素。在fastai库中,像素值在0到1之间。在这个例子里,像素值在0到255之间。这里有9个像素值。这个区域很白。这里的像素值就会很高。
随着我们移动光标,这个9数字的值会变,同时能看到的底色也在变。上面还有另外9个值。 下面的方格下的×1,X2和这里的1,2,1是对应的。现在你能看到, 当我们移动红色小方格,这些数字会改变,然后我们把这些数字乘以对应的数字,这里我们开始用到一些术语。
上面的矩阵,叫做核。卷积核。我们将会取图像每个3×3的部分,然后做逐元素相乘,用鼠标点到的9个像素值,和我们核中的9个数相对应。当我们把每个对应的元素都相乘,然后把它们相加求和,这就是右边显示出来的。 随着这里的红色方格移动至此,你会发现这边也有一个小红格。因为这个小红格里面的数字就是下面9个元素与核进行逐元素相乘,再求和的结果。因此这个图像的大小比原始图像少一圈。你能看到,右图有一个黑边,因为在边缘位置,3×3的核不能溢出边缘,所以核的中心能走到最远的地方,就是距离边缘的一个像素的位置。
我们为什么这么做呢?或许你已经发现了什么。这张脸有些地方(右图)显得有一些白,勾勒出了脸部轮廓水平的边缘。怎么实现呢?其实就是,这9个像素值与核,进行逐元素相乘,求和,并把对应结果在这里拼在一起。那为什么 能画出这种白边轮廓呢?你可以试想一下。我们来看这里(左图的头发),
v
如果我们只看这一小块, 它上面的点都很白,所以它们都有比较高的值,上面的这些数字乘以1,2,1,能生成大的数字。中间的数字都是0,所以不用关心这些。下面这些数字都是小数字、因为它们都接近0.所以它们都没有什么作用。因此这个部分最终会是白色的像素。同时在下方另一侧(发际线这里),像素色浅,将会产生很多负值。区域上方像素是黑色的,像素值很小,再乘上1,2,1依旧很小,没有什么影响,所以在这里我们将会得到很负的数字。这里我们用3×3的矩阵,与核进行逐元素的相乘,在相加求和,产生一个输出值。这个过程我们称之为卷积。这就是卷积了。你可能看着很熟悉。因为我们之前几节课里,看过Zelier和Fergus的文章,那篇文章里面我们看到不同的层,并且我们可视化地看到权重的作用是什么。还记得吗?第一层参数基本上具备找到对角边和梯度的特征,卷积的作用就是这样。每一层都是一个卷积。所以第一层(核矩阵中的值)能做的就差不多是这样。 但很棒的是,下一层可以用前一层作为输入,它可以把通道结合,一个卷积的输出叫做一个通道,所以它可以用一个通道找到顶边,用另一个通道找到左边,然后下一层可以将这两个通道整合成输入数据,从中提炼出具备识别左上角边沿的能力。这就是我们Zeiler和Fergus这篇可视化文章所了解到的。
让我们再从其它角度看下这个。我们看下这一篇Matt Kleinsmith的精彩文章,他是我们这个课程第一年的学生。他写了这个作为他的课程项目的一部分。
这里是我们的图片(右图中间列)。它是一个3x3的图片(中间列),我们的核是一个2x2的核(左边列)。我们要做的是把这个核应用在这个图片的左上角上部分。让左边2×2的核与中间列相应颜色的小格相乘,绿色对应绿色,红色对应红色。把它们加在一起,生成输出里的左上角的值。也就是说:
是一个bias,这没什么影响。它只是一个普通的bias。你可以看到每个输出像素是不同线性方程的计算结果。可以看到这四个权重被来回移动,因为它们是我们的卷积核。
这是另一种理解卷积的方式,它是一个经典的神经网络的视角,P是把每一个输入,乘以对应权重,然后把除了灰色的所有结果加起来。
我需要将灰色参数都被设置为0,因为P只和A、B、D、E有联系。
换句话说,神经网络表示的是矩阵乘法,所以我们可以用一个矩阵乘法表示它。这里是将3×3小图的像素展平为一维向量。这是一个矩阵和向量相乘再加上偏置。这里的许多元素,都被我们设置为0,所以你可以看到,这里是0,0,0,0。
相应的这里也是0 0 0 0 0 (C F G H J 位置)。
换句话说,卷积就是一次矩阵乘法,在这之中,发生了两件事情,一是部分元素一直都为0,二是那些具有相同颜色的元素已有相同的权重,因此当存在具有相同权重的多个元素时,这就叫权重栓连(weight tying)。很明显,我们可以用矩阵乘法实现卷积,但是我们不会这么做,因为这很慢。在实际中,我们的程序库,有专门的的卷积函数可以用。它们基本上做的就是这个,
这个,
也就是这组等式,
也就是和矩阵乘法一样,
像我们讨论过的,我们需要考虑padding,因为如果你有一个3x3的核,和一个3x3的图片,这只能生成一个像素的输出。这个3x3的内积核只能做一次卷积。因此,如果我们希望输出多于一个像素,需要使用另一种方法叫填充(padding),就是在图像周边添加额外的像素,大多数程序库的做法是在图像周边加一层圈0,即在图像周边添加一圈0,因此对于3×3的内核,在每一边之外都要添加一个0,一旦你这样添加之后,就可以移动这个3×3的内核穿过图像,得到和输入一样尺寸的输出。正如我们提到的,在fastai中,我们通常不一定使用zero填充,我们可能会用reflectioni填充,尽管对于这种简单的卷积,我们还是用zero填充,因为对于一幅大图来说,这么小的区域不是很重要。用那种填充方式没多大的区别。这就是卷积的概念。
一个卷积神经网络如果只能找到边缘,那就不是很有意义,所以我们必须更进一步。如果我们有一个输入,它可能是标准的红蓝绿图像,那么我们可以创建3×3的内核,就像这样,然后我们可以把它用在所有不同的像素上。但是你可以仔细想一下我们用的不再是2维的输入,我们现在是3维的输入,一个三阶张量,所以我们很可能不想把一样的核的值用在红蓝绿三个通道上,因为如果我们正在建立以绿色青蛙的检测器,相较于蓝色激活,我们希望绿色能得到更多激活。如果我们试着建立合适的特征让我们找到梯度,去区分从绿色到蓝色的变化,那么每个色彩通道的核,都需要设定不同的值,因此我们需要建一个3×3×3的核。
这仍然是我们的核。我们仍然会从高度和宽度上做一些变化,但是相较于做9个值的逐个元素相乘,我们要做27个值的逐个元素相乘,3×3×3.我们仍将它们加起来变成一个数字,所以当我们用这个立方体(核)作用在这里,或者像这样,这样将会填充到后面,是吧。当我们做这部分的卷积的时候,仍然只会得到一个数字,因为我们对27个核的值做了逐元素的乘法,并把他们全部加总了,所以我们可以使用填白后的单元。
作为输入,所以我们的输入是1,2,3,4,5(一组)×5,所以我们最终会得到一个输出,也是5×5的。 但是现在输入的三原色是三通道的,输出只有一个通道,现在我们对一个通道无法做太多的分析,因为现在我们只能找到上边缘。
我们怎么能找到侧边和梯度还有长期留白的部分?所以,我们需要另建一个核,对输入卷积进行转换,并且建立另外一个5×5的输出。
然后我们可以把这两个输出矩阵信息堆叠起来,就有了另外一个维度。我们可以大量重复这一步骤,堆叠输出矩阵,最终我们会得到另外一个三阶张量输出。
这就是实践操作中的流程。在实践中,我们的输入是H(高)乘W(宽)乘3(三原色/通道数) ,我们让大量卷积作用在上面,核的数量我们可以选择,然后我们得到一个输出,高度×宽度×我们所拥有的核的数量。
通常,我们在开始时会使用16个核,所以现在我们有16个通道,这16个通道,代表这个像素上不同的要素,比如有多少左边缘,有多少上边缘,有多少蓝色到红色的梯度渐变,在这个2709个像素的RGB图片中,你可以继续做同样的事情。你可以继续建设一组核,通过它们又会得到另一组3阶张量。同样也是图片的高度×宽度×通道数,可能也是16。
我们真正想做的是,随着进入到更深的网络,我们希望有越来越多的通道,我们希望得到越来越丰富的特征,所以就像我们看到Zeiler和Fergus的论文里面写的用了4或5层,我们得到了眼球检测器和羽毛检测器,和其他检测器, 所以你真的需要很多通道。为了避免耗尽内存,时不时的我们建立这样的卷积层,不去遍历3×3的所有子集,而是一次跳两步。所以我们会以(2,2)为中心的3×3矩阵开始,直接依次跳到以(2,4)、(2,6)、(2,8)为中心的矩阵,这个叫步长(stride)为2的卷积(Stride 2 convolution)。其他部分和步长为1的完全是一样的。仍然是一组核。我们只是每次跳两步,我们每隔一个像素跳一个,所以输出就变成了H/2乘以W/2,所以输出就变成了H/2乘以W/2,所以当我们这么做的时候,我们通常会创建两倍的核,所以现在我们对每个点有32个激活,这就是现代卷及网络的大致样子。
我们可以看到,如果我们分析我们的宠物数据集,建立CNN(卷积神经网络),我们看一下这只猫,如果我们运行
id = 0
x,y = data.valid_ds[idx]
x.show()
data.valid_ds.y[idx]
抓取第一个(index是0),然后运行x.show()然后我们输出y图像,显然这只猫的品种是缅因猫,
一周前我完全不知道,世界上有种动物叫缅因猫,在花了一周时间研究这只缅因猫之后,我现在非常熟悉这只缅因猫。所以我们运行
learn.summary()
记住我们的输入要求是352×352像素,
一般来说第一个卷积层的步长是2,所以第一层之后成了176×176,这是运行learn.summary的结果,会输出所有层的维数176×176【will print out for you the output shape up to every layer 176×176】,第一个卷积层有64个激活函数。
输入learn.model我们可以看到
这是一个Con2d有3个输入通道,64个输出通道,步长是2,好的。有趣的是开始的时候它的核是7×7的,所以几乎所有其他的卷积都是3×3,全是3×3。由于在第二部分我们说的原因,我们经常在开始的时候用更大的核。如果用了更大的核,你需要更多的padding,所以我们必须用核数除2取整(比如7//2 = 3)来padding,这样我们就不会遗漏任何信息。现在我们有64个通道,因为步长是2,现在是176×176。随着推演,你会时不时看到,我们的网格会减半,到88×88,再到44×44,所以这就是Conv2d,然后我们这么做的时候,通常会给通道加倍,
数据经过其他几个卷积层,你能看到也经过了Batchnorm2d和ReLU,这都是很通用的操作。然后我们又复原操作了一遍。另外一个步长是2的卷积,又加倍了通道。现在是512个通道11×11的网络。这就是我们神经网络主体结束的地方。最终我们是512个通道11×11的网络。
手工卷积
好的,在这个点上,我们可以开始做热力图了。我们试着完成它,在此之前,我想让你看看,你怎么做手动的卷积。因为它挺有趣的。我们就从这张缅因猫的图片开始。我们创建了一个卷积核,
这个有一个右边缘和底边的正值,里面都是负值,我觉得它代表有一个右底边。好的,这是我的张量,现在一个复杂的问题是,3×3的核不能用于这个目的,因为我还需要另外两个维度一起使用。首先,我需要第三个维度,用于表征怎么把红、绿、蓝结合起来。所以我要做的是用.expand这个函数。这是我刚才建的3×3矩阵,我再加个3到开始的地方。expand的作用是建立一个3×3×3的张量,方法是基础张量(调用这个方法的张量)复制3次。我想说的并不是完全的复制,只是“假装”复制,它们三个矩阵都引用着同一块内存,所以这是一种能节约存储空间的复制方式。这里就是那3个复制品。
我这么做的原因就是我想要对红绿蓝同样对待和处理,正如我正给你展示的一样。然后我们需要再多一个轴,因为我们其实并不是要完全分开的单独的核, 就像我们之前在这里画的多个内核。
我们实际上要用的是用一个四维的张量,最前面的一个参数是对每个单独核组合方式的说明。
在这里,我要创建一个核,为了做卷积,我还要在前面加这个参数(expand1,3,3,3)中的1)。现在你可以看到k.shape是[1, 3, 3, 3]:
k.shape
torch.Size([1, 3, 3, 3])
这是一个3x3的核(后两个参数)。有3个这样的核(第二个参数),这就是我们最终获得的核(第1个参数)。要理解这些高维的向量会花一些时间,因为我们不习惯写4D的张量,但是这样想就好了,4D的张量就是一组叠在一起的3D的张量。
这就是我们的4D张量,然后你可以调用conv2d,传入一些图片,我要用的图片是验证集里的第一部分以及核。
还有一个技巧, 在Pytorch里面,所有的工作都是基于mini-batch的,而不是单独的一张图片,所以在这里,我们必须创建一个只有1个图片的小批量数据集,我们的原始图片时3个通道乘352×352,即高×宽。
记住,Pytorch是通道数×高×宽,我们需要创建一个4维的张量,第一个维度的值是1。这表示mini-batch的大小是1. 因为这种小批次就是pytorch所需要的格式,你可以用pytorch或者用Numpy完成。就是你可以通过none去索引数组或者张量。这样就会在那个数据里产生一个新的维度,t是我所选择的3×352×352的图片,T[none]是一个4维的张量。也就是含一张图像(1×3×352×352)小批次。现在我可以运行Conv2d了,这是输出的猫,也就是缅因猫。
好的,你自己可以这样去尝试下使用卷积。
生成热度图
记住,我之前提到的,我们是从红-蓝-绿(组成的图片)输入值开始的。然后通过了一堆卷积层 ,我们用竖线来代表卷积层, 通过激活函数输出。
我们会有越来越多的通道,并且图片越来越小(高×宽),最终得到在summary那一段里看的结果,也就是11×11×512的输出,
data.c代表了我们有多少类别,我们可以看到,
模型最终有37个特征。
这意味着,我们获得了图片对应37个类别猫和狗的各自概率,也就是一个长度为37的向量,也就是我们最终需要的输出,我们将把这个输出跟我们的one-hot矩阵作比较。one-hot编码将在缅因猫的地方标着1,我们需要把11× 11×512的矩阵变成37个值的向量。那么方法就是我们对每个11×11的面来取均值,这里我们对第一个面取均值,其结果将为一个数字,然后我们会对512个面中的第二个面取均值,我们又得到一个值。我们将对每一个面都这么做,这样会得到一个长度为512的向量。现在我们需要做的仅仅是把这个向量乘以一个512×37的矩阵。这样我们机会得到一个长度是37的输出量。这里给每个面取均值的这步,被称为average pooling(均值池化)
![image.png](https://upload-images.jianshu.io/upload_images/17391828-252acdcafad 96dcf.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
让我们回头看下我们的模型。这里是我们最终的512个值。这里有一个concat pooling。我们在part2会讨论。现在我们只关注均值池化。concat pooling是fastai的特有的,其他库都只能做average pool。
AvgPool2d的输出大小是1,这就是AvgPool2d的大小为1的输出。
这里又是一个fastai特有的东西,这里我们实际有两层,通常其他库只有一个线性层,这个线性层输入为512,输出为37。
那意味着什么呢?这儿的小盒子区域,也就是我们希望缅因猫的值是1的地方。我们必须在对应小盒子的地方有一个比较高的数值。这里的损失值比较小。为了能在这里得到一个高的值,而我们是通过矩阵相乘, 也就是说它代表了512个元素值经过权重变换的线性组合。
所以如果我们能自信地说,这就是一个缅因猫,也只需要将输入加权求和,而这些输入实际上代表这一些有意义的特征。比如毛是不是松软,鼻子是什么颜色,腿有多长,耳朵有多尖等,以及其他可以使用的特征。比如如果你想识别一个斗牛犬,你也同样会用512个输入,只是权重不同而已。因为这就是矩阵乘法的本质。就是加权求和。不同的输出会使用不同权重求和。
我们知道,可能会有成百甚至上千的卷积层,但最终以输出11×11的面来对应每一个特征。比如这一小块。
可能就表明了它像尖耳朵的程度,或者它的毛发蓬松的程度。或者是不是更像一条长腿,或者像一个鲜红鼻子的程度。这就是这些层需要代表的特征。每个面都代表一个不同的特征。 这些特征输出我们可以理解为不同的特征。
所以,我们真正想知道的并不是每个11×11面的均值是什么,经过这11×11的面的输出,我们真正想知道的是这11×11的面的每个点代表着什么,我们如果不对这11×11个点取均值,而是对512个通道来去均值。如果我们用512个通道均值,我们将会得到一个11×11的矩阵。每一个区域,每个点将是那个区域活跃程度的平均值。当图片逐渐弄清楚是一只缅因猫时,每个格点对应的就是这个区域包含的缅因猫成分值。在11×11的区域里,这实际上就是我们制作热度图的方法。我想最简单的方法可能还是逆向操作。
这是我们的热度图,而它是由平均激活值组成的。这用了一些matplotlib和fastai代码。fastai用来显示图片,Matplotlib用来做热度图。
我们在这里输入平均激活值,hm就是热力图。Alpha=0.6是增强透明度。而extent是将11×11的张量扩展成352×352。Interpolation用的是bilinear interpolatiions(双线性插值),这样不会成像为块状不均匀。而用不同的色差cmap来标亮。这就是matplotlib。不是很重要。关键的是这里的平均激活值,就是我们想要的11×11张量。这里写了,平均激活值尺寸avg_acts.shape是11×11。
为了到这一步,我们对512×11×11的第0维取均值,
avg_acts = acts.mean(0)
avg_acts.shape
torch.Size([11, 11])
也就是我们刚刚说的在pytorch中的第一个维度就是通道维度,
所以对第0维做均值处理,可以将512×11×11张量转化为目标的11×11张量。
所以激活值acts包含了我们要做平均处理的激活值,那acts从哪里来呢?他们来自Pytorch的hook函数。Hook是一个高级酷炫的Pytorch功能,能让你只用名称注册,就可以连接到Pytorch内部,并且运行任意python代码。这真的是一个很棒很有用的功能。
因为你知道,通常我们通过pytorch模块,运行forward时,我们得到一系列输出,但我们知道在计算过程中,这些结果是在计算这个(512×11×11的面),我要做的是,连接hook到forward,然后让pytorch 在计算中间部分的时候,把它们保存下来。这是什么呢?这就是模型卷积部分的结果。 模型的卷积部分基本上就是在均值池(average pool)之前的所有层(除了输入层)。
回顾一下迁移学习, 我们切掉模型卷积部分,之后的所有东西,并换上我们自己的层。对于fastai,模型的原始卷积部分,永远是模型结构的首位。确切来说,它常被调用到这里。我调用了我的模型,并且命令为m。你可以看到,m的内容有很多,但至少在fastai里,M[0]总是模型的卷积部分,这里,我们建立了一个Resnet34,resnet34主要的部分就是,也就是我们用来与训练的部分,都在m[0]里。所以基本上,这是Resnet34的全部内容。最后得到的就是512×11×11的激活值。换句话说,我们要做的是调取m[0],再用hook链接它的输出,这样做非常有用,而且fastai有一些功能可以用来帮你完成这个步骤。就是用hook_output().之后把m[0]的输出传入到你想要的链接pytorch的模块中。
你最想链接的就是模型的卷积部分,也就是m[0]或者learn.model[0],所以我们给hook一个名字,不用担心这部分的代码,我们下周会学到。
这里连接了m[0]输出,我们现在需要运行forward pass正向传递,提醒一下,在pytorch里,要计算一些东西,需要用到正向传递(forward pass),你只需要将模型当做一个函数,我们给函数输入一个小批次,我们已经有了一个缅因猫图片,但我们不能把它直接传入到模型中,它需要被归一化处理,再转化为一个小批次,放进GPU.在fastai中有一个东西叫做数据堆,是data中的一个功能,你可以执行data.one_item()函数,来建立一个小批次。给你们一个小作业,试着构建一个小批次,但不用dat.one_item().确保你学会了怎么归一化处理数据。如果你们想试试的话。但这就是你如何创建小批次。它只含一个样本,然后我们再将数据用.cuda()传入gpu上,这样就可以将图像传进模型,得到预测值。其实我并不关心这个预测值,因为预测这件事情,并不是我想要的, 所以实际上我不会对预测值做任何事情,我关心的是我刚刚建立的hook。需要注意的是,当你在pytorch用hook链接什么的时候,这意味着每一次运行模型时,假设你在链接输出结果,Pytorch会存储所以输出结果,当你得到你要的结果以后,你需要移除hook,要不然的话,如果你再用这个模型,它会继续不断链接输出结果并存储,这回导致速度变慢,内存紧张。所以我们建立了这个东西,python称之为上下文管理器,你可以 用任何hook作为上下文管理器,在with代码块的最后,它会删除那个hook。
我们现在有了hook,就是fastai hooks,总给你一些东西叫做,或者说output hooks总会给你一些东西叫做.stored,这里存贮着你用hook链接的内容,也就是我们的激活值。
所以我们做了一个正向传播,在hook模型卷积部分的输出之后,我们调取了它存储的内容,检查了数据尺寸是我们预料的512×11×11,然后我们对通道轴取均值,得到11×11张量。
然后我们就得到了我们要的图片。我知道这段内容信息量极大,但如果你花时间反复看这两部分:卷积核部分以及heatmap部分,就像去运行这些代码,尝试改变一点代码试试举一反三,重要的是记住检查他的shape。
你可能发现了,当我在向你们展示着写notebooks的时候,我经常输出shape来检查。当你查看shape的时候,你要看看有几个维度,也就是张量的阶数,以及每一个维度里面的值是多少。试着想象为什么是这样的 ,试着回头看看输出的总结,看看模型各个层的设置, 以及回头看一看,想一想,我们画的图。在想想这背后的原理都是怎样的。