yolov3论文阅读笔记

简单介绍

yolov3和retinaNet的爱恨情仇,如果看过retinaNet论文可以发现,论文作者在对比图中没有画出yolov2的对比展示图,可能是因为yolov2的时间速度快到超过了画图的下限?不对,应该大概率是不想画上去.......于是在yolov3论文中,作者开篇就自己动手丰衣足食,引用了retinaNet这篇论文中的原图,并且“自作主张”的把yolo的速度画在了第二象限。至少在速度上,充满了一种,天下无敌的萧索之感。


image.png

关于yolo系列的其他论文解读以及和SSD的比较,可以参考我的下面这些文章:
YOLOv1论文解读——简洁版 https://www.jianshu.com/p/b6216a8e961c

yolo9000https://www.jianshu.com/p/a4af2a3b8d72

SSD与yolov1的对比
https://www.jianshu.com/p/1003c02d2874

回到论文yolov3本身,关于正负样本的划分,在yolov2中,首先一个IOU最大的bounding box会负责这个物品,然后同一个grid cell中IOU阈值大于特定值的也会被认为是正样本。在yolov3中,则每个物品只会有一个bounding box和它对应,高于阈值的会被忽略。低于阈值的会被认为是负样本。

网络结构

yolov3的论文处于篇幅角度考虑没有给出网络的结构示意图,网友给出了一个精致的版本:

1.png

DBL: 如图1左下角所示,也就是代码中的Darknetconv2d_BN_Leaky,是yolo_v3的基本组件。就是卷积+BN+Leaky relu。对于v3来说,BN和leaky relu已经是和卷积层不可分离的部分了(最后一层卷积除外),共同构成了最小组件。
resn:n代表数字,有res1,res2, … ,res8等等,表示这个res_block里含有多少个res_unit。这是yolo_v3的大组件,yolo_v3开始借鉴了ResNet的残差结构,使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53,前者没有残差结构)。对于res_block的解释,可以在图1的右下角直观看到,其基本组件也是DBL。
concat:张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的,拼接会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。

结合下面这个具体的表格,食用效果更佳:


2.png

yolov2是基于Googlenet的思路设计了Darknet-19,作者认为VGG的运算太多了,但是也参考了VGG中的思路,主要构成是卷积和最大池化层,使用卷积层改变通道数,使用最大池化层缩减长宽。yolov3则参考了resnet,在网络中不再使用最大池化层,直接使用卷积步长改变长宽比。yolov3的backbone叫Darknet-53,看起来就比yolov2的复杂。


3

我们来额外关注一下,yolov3的输出:


image.png

yolo v3输出了3个不同尺度的feature map,如上图所示的y1, y2, y3。这也是v3论文中提到的为数不多的改进点:predictions across scales

在yolov2中,作者已经参考了SSD以及Faster RCNN的经验,使用了最后两层的结构,拼接来获得细粒度的检测效果,在yolov3中加强了这种思路,这个借鉴了FPN(feature pyramid networks),了一种不同的方式得到不同粒度的检测。

作者并没有像SSD那样直接采用backbone中间层的处理结果作为feature map的输出,而是和后面网络层的上采样结果进行一个拼接之后的处理结果作为feature map。为什么这么做呢?这里参考的是FPN, 我感觉是有点玄学在里面,一方面避免和其他算法做法重合,另一方面这也许是试验之后并且结果证明更好的选择,再者有可能就是因为这么做比较节省模型size的。这点的数学原理不用去管,知道作者是这么做的就对了。
https://blog.csdn.net/leviopku/article/details/82660381

损失函数

损失函数依旧由三个部分组成: 位置损失函数、confidence loss、classification loss.

位置损失和类别损失函数都不会考虑负样本情况,只针对正样本,只有confidence loss会同时考虑正负样本。这个和之前的yolo版本一致。

1. confidence loss

计算objectness score,也就是和四个坐标一起预测的和真实物品的IOU值的预测值,使用逻辑回归计算的。为啥要使用逻辑回归?这里的思路需要理解一下,首先对于真实的ground truth,如果我们已经预测了anchor prior的位置,那么就可以直接得到IOU,通过IOU我们可以知道哪个prior是最合适的,是应该被认为负责了ground truth物品的,那么这个框的object score就应该为1,我们希望其预测结果尽可能的接近1,对于其他的即使IOU高于阈值(0.5)的框,我们会忽略他们,而对于低于这个阈值的IOU就会被当做是负样本,其逻辑回归值应该尽可能的接近0,使用逻辑回归很适合这种正负样本的分类问题,于是就把度量IOU的loss转为了逻辑回归的思路。


image.png

我们看看在yolov2中是怎么计算这里的损失函数的,第一项是预测错误的情况,bijk是错误的IOU值;第二项是正确预测的值,IOU^(gt)是预测框和真实框的IOU,bijk是预测的confidence score.希望预测值逼近IOU。所以是一个平方损失函数.


image.png

2. classification loss

对于calss prediction适用的是binary crossencropy loss(也就是逻辑回归)
没有使用softmax多分类,作者也指出softmax最终对性能也没有提升,而且softmax假设是每个box只有一个类,这对迁移到更大有多种类别标签的数据集是没有好处的,所以作者使用多个逻辑回归来预测分类,使用二元交叉熵计算分类损失。

3. 位置损失

沿用yolov2中的预测方式,预测四个位置x,y,w,h:


image.png

使用均方误差损失函数来衡量。


image.png

附录:参考文献

https://blog.csdn.net/leviopku/article/details/82660381

https://blog.csdn.net/weixin_42078618/article/details/85005428

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352