全图片带你了解 ROI【一文图解AI之CV系列】

导言:我一直受惠于很多网络上图文并茂的优秀英文技术文,这些文章不仅便于理解也便于回顾,因为很多时候再次见到图就能回想起当时学会的复杂概念,所谓千言万语不及一张图。MyEncyclopedia公众号会每次一个概念逐渐建立起主流 AI 领域(CV,NLP,RL,GNN)最直观最形象的概念和技术,并整理成知识网。
文章首发于公众号 https://mp.weixin.qq.com/s/u39urFx_q0Z9Yb4BNv-ZUQ

我们将讨论Fast R-CNN论文(上图中的浅蓝色矩形)中描述的原始 RoI 池化。该过程有第二个和第三个版本,称为RoIAlignRoIWarp

RoI(感兴趣区域)是什么?

RoI(感兴趣区域)是来自原始图像的建议区域。我们不打算描述如何提取这些区域,因为有多种方法可以做到这一点。我们现在唯一应该知道的是有多个这样的区域,最后目标检测算法对所有区域进行分类。

Fast R-CNN 的工作原理是什么?

Fast R-CNN不同于基本的R-CNN网络。它只有一个卷积特征提取(在我们的示例中,我们将使用 VGG16)。

VGG16输出

VGG16特征提取输出大小

我们的模型采用大小为512x512x3(宽 x 高 x RGB)的图像输入,VGG16 将其映射到16x16x512特征图。您可以使用不同的输入大小(通常较小,Keras 中 VGG16 的默认输入大小为 224x224)。

如果您查看输出矩阵,您应该注意到它的宽度高度正好比输入图像小 32 倍 (512/32 = 16)。这很重要,因为所有 RoI 都必须按此比例缩小。

RoI 举例

这里我们有 4 个不同的 RoI。在实际的 Fast R-CNN 中,您可能有数千个,但显示所有数千个将无法显示。

image

重要的是要记住RoI 不是物体边界框。它可能看起来像,但它只是进一步处理的提案框。许多人认为这是因为大多数论文和博客文章都在实际对象上创建提案框。这样更方便,我在我的图像上也这样做了。下图中绿色框是一个不在实际对象上的提案示例,它也将由 Fast R-CNN 检查。

image

有一些方法可以限制 RoI 的数量,也许我以后会写到。

如何从feature map中得到RoI?

现在,当我们知道 RoI 是什么时,我们必须能够将它们映射到 VGG16 的输出特征图上。

特征映射

每个 RoI 都有它的原始坐标和大小。从现在开始,我们将只关注其中一个:

[图片上传失败...(image-9ebb45-1675776027898)]

它的原始尺寸为145x200,左上角设置为(192x296)。您可能会说,我们无法将这些数字中的大部分除以32

  • 宽度:200/32 = 6.25
  • 身高:145/32 = ~4.53
  • x: 296/32 = 9.25
  • 和:192/32 = 6

只有最后一个数字(左上角的 Y 坐标)才有意义。那是因为我们现在正在处理16x16网格,我们只关心整数(更准确地说:自然数)。

特征图上坐标的量化

量化是将输入从大量值(如实数)限制为离散型(如整数)的过程

如果我们将原始的 RoI 放在特征图上,它看起来像这样:

特征图上的 RoI

我们不能真正在这之上应用池化层,因为一些“单元格”被分割了。量化所做的是在将每个结果放入矩阵之前对其进行四舍五入。9.25变成94.53变成4,等等。

image

您会注意到我们刚刚丢失了一些图像数据(深蓝色)并获得了新数据(绿色):

量化损失

因为它仍然可以工作,我们不必处理它,但有一个称为RoIAlign的版本可以解决这个问题。

RoI池化

现在,当我们将 RoI 映射到特征图上时,我们可以应用池化。为了方便起见,我们将再次选择RoI Pooling层的大小,但请记住大小可能会有所不同。你可能会问“为什么我们还要应用 RoI Pooling?” 这是个好问题。如果你看一下 Fast R-CNN 的原始设计:

VGG16输出

RoI Pooling Layer之后是一个固定大小的全连接层。因为我们的 RoI 具有不同的大小,所以我们必须将它们合并为相同的大小(在我们的示例中为3x3x512)。此时此刻,我们映射的 RoI 大小为4x6x512,正如您想象的那样,我们不能将 4 除以 3 :(。这就是量化再次出现的地方。

映射的 Roi 和 poolig 层

这次我们不必处理坐标,只需要处理大小。我们很幸运(或者只是池化层的方便大小)6 可以除以 3 得到 2,但是当你将 4 除以 3 时我们剩下 1.33。在应用相同的方法(向下舍入)后,我们得到一个1x2 向量。我们的映射看起来像这样:

image

由于量化,我们再次失去了整个底行:

image

现在我们可以将数据汇集到 3x3x512 矩阵中

池化

在这种情况下,我们使用了最大池化,但它在您的模型中可能有所不同。这个过程是在整个 RoI 矩阵上完成的,而不仅仅是在最顶层。所以最终结果是这样的:

image

相同的过程应用于原始图像中的每个 RoI,因此最终,我们可能有数百甚至数千个 3x3x512 矩阵。这些矩阵中的每一个都必须通过神经网络的剩下部分(从 FC 层开始)。对于它们中的每一个,模型分别生成 bbox 和类别分别。

接下来是什么?

池化完成后,我们限定了输入的大小为3x3x512,因此我们可以将其送入 FC 层进行进一步处理。还有一件事要讨论。由于量化过程,我们丢失了大量数据。准确地说,这么多:

数据丢失

这可能是个问题,因为每个“单元格”都包含大量数据(特征图上的 1x1x512 在原始图像上松散地转换为 32x32x3,但请不要使用该参考,因为这不是卷积层的工作方式)。有一种方法可以解决这个问题 (RoIAlign),我很快就会写第二篇关于它的文章。

编辑:这是关于 RoIAlign 和 RoIWarp 的第二篇文章 https://erdem.pl/2020/02/understanding-region-of-interest-part-2-ro-i-align

参考:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容