导言:我一直受惠于很多网络上图文并茂的优秀英文技术文,这些文章不仅便于理解也便于回顾,因为很多时候再次见到图就能回想起当时学会的复杂概念,所谓千言万语不及一张图。MyEncyclopedia公众号会每次一个概念逐渐建立起主流 AI 领域(CV,NLP,RL,GNN)最直观最形象的概念和技术,并整理成知识网。
文章首发于公众号 https://mp.weixin.qq.com/s/u39urFx_q0Z9Yb4BNv-ZUQ
我们将讨论Fast R-CNN论文(上图中的浅蓝色矩形)中描述的原始 RoI 池化。该过程有第二个和第三个版本,称为RoIAlign和RoIWarp。
RoI(感兴趣区域)是什么?
RoI(感兴趣区域)是来自原始图像的建议区域。我们不打算描述如何提取这些区域,因为有多种方法可以做到这一点。我们现在唯一应该知道的是有多个这样的区域,最后目标检测算法对所有区域进行分类。
Fast R-CNN 的工作原理是什么?
Fast R-CNN不同于基本的R-CNN网络。它只有一个卷积特征提取(在我们的示例中,我们将使用 VGG16)。
VGG16特征提取输出大小
我们的模型采用大小为512x512x3(宽 x 高 x RGB)的图像输入,VGG16 将其映射到16x16x512特征图。您可以使用不同的输入大小(通常较小,Keras 中 VGG16 的默认输入大小为 224x224)。
如果您查看输出矩阵,您应该注意到它的宽度和高度正好比输入图像小 32 倍 (512/32 = 16)。这很重要,因为所有 RoI 都必须按此比例缩小。
RoI 举例
这里我们有 4 个不同的 RoI。在实际的 Fast R-CNN 中,您可能有数千个,但显示所有数千个将无法显示。
重要的是要记住RoI 不是物体边界框。它可能看起来像,但它只是进一步处理的提案框。许多人认为这是因为大多数论文和博客文章都在实际对象上创建提案框。这样更方便,我在我的图像上也这样做了。下图中绿色框是一个不在实际对象上的提案示例,它也将由 Fast R-CNN 检查。
有一些方法可以限制 RoI 的数量,也许我以后会写到。
如何从feature map中得到RoI?
现在,当我们知道 RoI 是什么时,我们必须能够将它们映射到 VGG16 的输出特征图上。
每个 RoI 都有它的原始坐标和大小。从现在开始,我们将只关注其中一个:
[图片上传失败...(image-9ebb45-1675776027898)]
它的原始尺寸为145x200,左上角设置为(192x296)。您可能会说,我们无法将这些数字中的大部分除以32。
- 宽度:200/32 = 6.25
- 身高:145/32 = ~4.53
- x: 296/32 = 9.25
- 和:192/32 = 6
只有最后一个数字(左上角的 Y 坐标)才有意义。那是因为我们现在正在处理16x16网格,我们只关心整数(更准确地说:自然数)。
特征图上坐标的量化
量化是将输入从大量值(如实数)限制为离散型(如整数)的过程
如果我们将原始的 RoI 放在特征图上,它看起来像这样:
我们不能真正在这之上应用池化层,因为一些“单元格”被分割了。量化所做的是在将每个结果放入矩阵之前对其进行四舍五入。9.25变成9,4.53变成4,等等。
您会注意到我们刚刚丢失了一些图像数据(深蓝色)并获得了新数据(绿色):
因为它仍然可以工作,我们不必处理它,但有一个称为RoIAlign的版本可以解决这个问题。
RoI池化
现在,当我们将 RoI 映射到特征图上时,我们可以应用池化。为了方便起见,我们将再次选择RoI Pooling层的大小,但请记住大小可能会有所不同。你可能会问“为什么我们还要应用 RoI Pooling?” 这是个好问题。如果你看一下 Fast R-CNN 的原始设计:
在RoI Pooling Layer之后是一个固定大小的全连接层。因为我们的 RoI 具有不同的大小,所以我们必须将它们合并为相同的大小(在我们的示例中为3x3x512)。此时此刻,我们映射的 RoI 大小为4x6x512,正如您想象的那样,我们不能将 4 除以 3 :(。这就是量化再次出现的地方。
这次我们不必处理坐标,只需要处理大小。我们很幸运(或者只是池化层的方便大小)6 可以除以 3 得到 2,但是当你将 4 除以 3 时我们剩下 1.33。在应用相同的方法(向下舍入)后,我们得到一个1x2 向量。我们的映射看起来像这样:
由于量化,我们再次失去了整个底行:
现在我们可以将数据汇集到 3x3x512 矩阵中
在这种情况下,我们使用了最大池化,但它在您的模型中可能有所不同。这个过程是在整个 RoI 矩阵上完成的,而不仅仅是在最顶层。所以最终结果是这样的:
相同的过程应用于原始图像中的每个 RoI,因此最终,我们可能有数百甚至数千个 3x3x512 矩阵。这些矩阵中的每一个都必须通过神经网络的剩下部分(从 FC 层开始)。对于它们中的每一个,模型分别生成 bbox 和类别分别。
接下来是什么?
池化完成后,我们限定了输入的大小为3x3x512,因此我们可以将其送入 FC 层进行进一步处理。还有一件事要讨论。由于量化过程,我们丢失了大量数据。准确地说,这么多:
这可能是个问题,因为每个“单元格”都包含大量数据(特征图上的 1x1x512 在原始图像上松散地转换为 32x32x3,但请不要使用该参考,因为这不是卷积层的工作方式)。有一种方法可以解决这个问题 (RoIAlign),我很快就会写第二篇关于它的文章。
编辑:这是关于 RoIAlign 和 RoIWarp 的第二篇文章 https://erdem.pl/2020/02/understanding-region-of-interest-part-2-ro-i-align
参考:
- Fast R-CNN https://arxiv.org/pdf/1504.08083.pdf