边框回归（Bounding Box Regression）

介绍

原文地址: https://blog.csdn.net/zijin0802034/article/details/77685438/

因为做目标检测和人脸识别时，当前比较流行的是anchor-based方案，会涉及到边框回归的问题，在此记录为了从原理入手，加深自己的理解。首先提出如下几个问题：

1. 为什么要做边框回归？

2. 什么是边框回归？

3. 边框回归怎么做？

4. 边框回归的宽高为什么要设计成这个样子？

5. 为什么边框回归只能微调，在离ground truth近的时候才能生效？

1. 为什么要做边框回归？

Fig 1

上图中绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth 更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调这个窗口的。

2. 什么是边框回归？

对于窗口一般使用四维向量 $（x,y,w,h）$ 来表示，分别表示窗口的中心点坐标和宽高。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口 $\hat{G}$ 。

Fig 2

边框回归的目的既是：给定 $(P_{x}, P_{y},P_{w},P_{h} )$ 寻找一种映射 $f$ ，使得 $f(P_{x}, P_{y},P_{w},P_{h} )=(\hat{G} _{x}, \hat{G} _{y},\hat{G} _{w},\hat{G} _{h} )$ 并且 $(\hat{G} _{x}, \hat{G} _{y},\hat{G} _{w},\hat{G} _{h} )\approx (G_{x},G_{y},G_{w},G_{h})$

3. 边框回归怎么做？

那么，经过何种变换才能从Fig 2中的窗口 $P$ 变成窗口 $\hat{G}$ 呢？比较简单的思路是：平移 + 尺度缩放

3.1 先做平移 $(\Delta x, \Delta y)$ ，其中 $\Delta x=P_{w} d_{x} (P)$ , $\Delta y=P_{h} d_{y} (P)$ ，这是论文中的：

$\hat{G}_{x} =P_{w}d_{x}(P) +P_{x} ,$ (1)

$\hat{G}_{y} =P_{h}d_{y}(P) +P_{y} ,$ (2)

3.2 再做尺度缩放 $（S_{w},S_{h}）$ ，其中 $S_{w} =exp(d_{w} (P))$ ， $S_{h} =exp(d_{h} (P))$ ，对应论文中的：

$\hat{G} _{w} =P_{w} exp(d_{w} (P)),$ (3)

$\hat{G} _{h} =P_{h} exp(d_{h} (P)),$ (4)

观察(1)-(4)我们发现，边框回归学习就是 $d_{x} (P)$ ， $d_{y} (P)$ ， $d_{w} (P)$ ， $d_{h} (P)$ 这四个变换。下一步就是设计算法那得到这四个映射。线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即 $Y\approx WX$ 。那么 Bounding-box 中我们的输入以及输出分别是什么呢？

Input

Region Proposal → $P=(P_{x}, P_{y},P_{w},P_{h} )$ ，这是什么？输入就是这四个数值吗？其实真正的输入时这个窗口对应的CNN特征，也就是R-CNN中Pool5 feature（特征向量）。（注：训练阶段输入还包括Ground Truth，也就是下边提到的 $t^* =(t_{x},t_{y},t_{w},t_{h})$ 。

Output

需要进行的平移变换和尺度缩放 $d_{x} (P)$ ， $d_{y} (P)$ ， $d_{w} (P)$ ， $d_{h} (P)$ 或者说是 $\Delta x, \Delta y$ ， $S_{w},S_{h}$ 。我们的最终输出不应该是 Ground Truth 吗？是的，但是有了这四个变换我们就可以直接得到 Ground Truth，这里还有个问题，根据(1)~(4)我们可以知道， P 经过 $d_{x} (P)$ , $d_{y} (P)$ , $d_{w} (P)$ , $d_{h} (P)$ 得到的并不是真实值 $G$ ，而是预测值 $\hat{G}$ 。的确，这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量 $（t_{x},t_{y}）$ 和尺度缩放 $（t_{w},t_{h}）$ 。这也就是 R-CNN 中的(6)~(9)：

$t_{x} =\frac{(G_{x} - P_{x})}{P_{w} } ,$ (5)

$t_{y} =\frac{(G_{y} - P_{y})}{P_{h} } ,$ (6)

$t_{w} =\lg (\frac{G_{w} } {P_{w} } ) ,$ (7)

$t_{h} =\lg (\frac{G_{h} } {P_{h} } ) ,$ (8)

那么目标函数可以表示为 $d_{*}(P)=\omega ^T\phi _{5} (T)$ ， $\phi _{5} (P)$ 是输入Proposal的特征向量， $\omega _{*}$ 是要学习的参数（*表示x，y，w，h，也就是每一个变换对应一个目标函数）， $d_{*}(P)$ 是得到的一个预测值，我要让预测值与真实值 $t_{*} =(t_{x},t_{y},t_{w},t_{h})$ 差距最小，得到的损失函数为：

$Loss=\sum_{i}^N(t_{*}^i- \hat{w} _{*}^T\phi _{5}(P^i ) ) ^2$

函数优化目标为：

$Loss=argmin_{\omega _{*} } \sum_{i}^N(t_{*}^i- \hat{w} _{*}^T\phi _{5}(P^i ) ) ^2 +\lambda ||\hat{w} _{*} ||^2$

利用梯度下降法或者最小二乘法就可以得到 $w_{*}$

为什么宽高尺度设计成这种形式？

这里重点需要解释下为什么设计的 $t_{x}$ , $t_{y}$ 为什么要除以宽高，为什么 $t_{w}$ , $t_{h}$ 会有 $log$ 形式！！

首先CNN具有尺度不变性，以下图为例：

Fig 3

x,y 坐标除以宽高

上图的两个人具有不同的尺度，因为他都是人，我们得到的特征相同。假设我们得到的特征为ϕ1,ϕ2，那么一个完好的特征应该具备ϕ1=ϕ。ok，如果我们直接学习坐标差值，以x坐标为例，xi,pi分别代表第i个框的x坐标，学习到的映射为f,f(ϕ1)=x1−p1，同理f(ϕ2)=x2−p2。从上图显而易见，x1−p1≠x2−p1。也就是说同一个x对应多个y，这明显不满足函数的定义。边框回归学习的是回归函数，然而你的目标却不满足函数定义，当然学习不到什么。

宽高坐标Log形式

我们想要得到一个放缩的尺度，也就是说这里限制尺度必须大于0。我们学习的tw,th 怎么保证满足大于0呢？直观的想法就是EXP函数，如公式(3), (4)所示，那么反过来推导就是Log函数的来源了。

最后编辑于：2020.03.29 15:15:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355

边框回归（Bounding Box Regression）

介绍

1. 为什么要做边框回归？

2. 什么是边框回归？

3. 边框回归怎么做？

Input

Output

为什么宽高尺度设计成这种形式？

x,y 坐标除以宽高

宽高坐标Log形式

推荐阅读更多精彩内容