边框回归(Bounding Box Regression)

介绍

原文地址: https://blog.csdn.net/zijin0802034/article/details/77685438/

因为做目标检测和人脸识别时,当前比较流行的是anchor-based方案,会涉及到边框回归的问题,在此记录为了从原理入手,加深自己的理解。首先提出如下几个问题:

1. 为什么要做边框回归?

2. 什么是边框回归?

3. 边框回归怎么做?

4. 边框回归的宽高为什么要设计成这个样子?

5. 为什么边框回归只能微调,在离ground truth近的时候才能生效?

1. 为什么要做边框回归?


Fig 1

上图中绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调这个窗口的。

2. 什么是边框回归?

对于窗口一般使用四维向量(x,y,w,h)来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口\hat{G}


Fig 2

边框回归的目的既是:给定(P_{x}, P_{y},P_{w},P_{h} )寻找一种映射f, 使得f(P_{x}, P_{y},P_{w},P_{h} )=(\hat{G} _{x}, \hat{G} _{y},\hat{G} _{w},\hat{G} _{h} )并且(\hat{G} _{x}, \hat{G} _{y},\hat{G} _{w},\hat{G} _{h} )\approx (G_{x},G_{y},G_{w},G_{h})

3. 边框回归怎么做?

那么,经过何种变换才能从Fig 2中的窗口P变成窗口\hat{G} 呢?比较简单的思路是:平移 + 尺度缩放

3.1 先做平移 (\Delta x, \Delta y),其中\Delta x=P_{w} d_{x} (P), \Delta y=P_{h} d_{y} (P),这是论文中的:

                                                                            \hat{G}_{x} =P_{w}d_{x}(P)  +P_{x} ,(1)

                                                                            \hat{G}_{y} =P_{h}d_{y}(P)  +P_{y} , (2)

3.2 再做尺度缩放(S_{w},S_{h}),其中S_{w} =exp(d_{w} (P))S_{h} =exp(d_{h} (P)),对应论文中的:

                                                                           \hat{G} _{w} =P_{w} exp(d_{w} (P)), (3)

                                                                           \hat{G} _{h} =P_{h} exp(d_{h} (P)), (4)


观察(1)-(4)我们发现, 边框回归学习就是d_{x} (P)d_{y} (P)d_{w} (P)d_{h} (P)这四个变换。下一步就是设计算法那得到这四个映射。线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y\approx WX。 那么 Bounding-box 中我们的输入以及输出分别是什么呢?

Input

Region Proposal → P=(P_{x}, P_{y},P_{w},P_{h} ),这是什么?输入就是这四个数值吗?其实真正的输入时这个窗口对应的CNN特征,也就是R-CNN中Pool5 feature(特征向量)。(注:训练阶段输入还包括Ground Truth,也就是下边提到的t^* =(t_{x},t_{y},t_{w},t_{h})

Output

需要进行的平移变换和尺度缩放d_{x} (P)d_{y} (P)d_{w} (P)d_{h} (P) 或者说是 \Delta x, \Delta yS_{w},S_{h}。 我们的最终输出不应该是 Ground Truth 吗? 是的, 但是有了这四个变换我们就可以直接得到 Ground Truth, 这里还有个问题, 根据(1)~(4)我们可以知道, P 经过d_{x} (P),d_{y} (P),d_{w} (P),d_{h} (P)得到的并不是真实值 G, 而是预测值\hat{G} 。 的确, 这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量(t_{x},t_{y})和尺度缩放(t_{w},t_{h})。这也就是 R-CNN 中的(6)~(9):

                                                                            t_{x} =\frac{(G_{x} - P_{x})}{P_{w} } , (5)

                                                                           t_{y} =\frac{(G_{y} - P_{y})}{P_{h} } , (6)

                                                                           t_{w} =\lg (\frac{G_{w} } {P_{w} } ) , (7)

                                                                            t_{h} =\lg (\frac{G_{h} } {P_{h} } ) , (8)

那么目标函数可以表示为d_{*}(P)=\omega ^T\phi _{5}  (T)\phi _{5} (P)是输入Proposal的特征向量,\omega _{*} 是要学习的参数(*表示x,y,w,h,也就是每一个变换对应一个目标函数),d_{*}(P)是得到的一个预测值,我要让预测值与真实值t_{*} =(t_{x},t_{y},t_{w},t_{h})差距最小,得到的损失函数为:

                                                                           Loss=\sum_{i}^N(t_{*}^i- \hat{w} _{*}^T\phi _{5}(P^i ) ) ^2

函数优化目标为:

                                                                         Loss=argmin_{\omega _{*} } \sum_{i}^N(t_{*}^i- \hat{w} _{*}^T\phi _{5}(P^i ) ) ^2 +\lambda ||\hat{w} _{*} ||^2

利用梯度下降法或者最小二乘法就可以得到w_{*}

为什么宽高尺度设计成这种形式?

这里重点需要解释下为什么设计的t_{x} ,t_{y} 为什么要除以宽高,为什么t_{w} ,t_{h} 会有log形式!!

首先CNN具有尺度不变性,以下图为例:


Fig 3


x,y 坐标除以宽高

上图的两个人具有不同的尺度,因为他都是人,我们得到的特征相同。假设我们得到的特征为ϕ1,ϕ2,那么一个完好的特征应该具备ϕ1=ϕ。ok,如果我们直接学习坐标差值,以x坐标为例,xi,pi分别代表第i个框的x坐标,学习到的映射为f,f(ϕ1)=x1−p1,同理f(ϕ2)=x2−p2。从上图显而易见,x1−p1≠x2−p1。也就是说同一个x对应多个y,这明显不满足函数的定义。边框回归学习的是回归函数,然而你的目标却不满足函数定义,当然学习不到什么。

宽高坐标Log形式

我们想要得到一个放缩的尺度,也就是说这里限制尺度必须大于0。我们学习的tw,th 怎么保证满足大于0呢?直观的想法就是EXP函数,如公式(3), (4)所示,那么反过来推导就是Log函数的来源了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容