YOLO V4

image.png

YOLOV4论文:Yolov4: Optimal Speed and Accuracy of Object Detection
YOLOV4网络可视化:netron可视化

YOLO V4的整体网络结构与YOLO V3一致,都分为输入,backbone,neck,predictions四部分
YOLO V4中模块与YOLO V3对比:
CBM模块:与yolov3里面的CBL模块相比,yolov4将yolov3里面的Leaky Relu激活函数替换为Mish激活函数

CBM

Mish activation

Leaky ReLu

Res unit:内部将YOLO V3的CBL替换为YOLO V4的CBM
image.png

SPP:使用1x1,5x5,9x9,13x13最大池化的方式,将池化结果进行concat
SPP

CSP模块:在channel维度对输入进行拆分,分成两路进行处理,目的是减小计算量,具体来说YOLO V4中的实现方式为:采用1x1的卷积将输出特征的channels数减半,然后分两路进行后续操作
image.png

PAN结构:
PAN

YOLO V4创新点:

1.输入端:这里指的创新主要是训练时对输入端的改进,主要包括Mosaic数据增强、cmBN、SAT自对抗训练
2.BackBone主干网络:将各种新的方式结合起来,包括:CSPDarknet53、Mish激活函数、Dropblock(注:CBM模块仅存在于BackBone中,网络的neck和prediction部分依然沿用YOLO V3中的CBL模块)
3.Neck:目标检测网络在BackBone和最后的输出层之间往往会插入一些层,比如Yolov4中的SPP模块、FPN+PAN结构
4.Prediction:输出层的锚框机制和Yolov3相同,主要改进的是训练时的损失函数CIOU_Loss,以及预测框筛选的nms变为DIOU_nms

Mosaic数据增强

Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式,但CutMix只使用了两张图片进行拼接,而Mosaic数据增强则采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接

这里首先要了解为什么要进行Mosaic数据增强呢?

在平时项目训练时,小目标的AP一般比中目标和大目标低很多。而coco数据集中也包含大量的小目标,但比较麻烦的是小目标的分布并不均匀。
主要有几个优点:
丰富数据集:随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。
减少GPU:可能会有人说,随机缩放,普通的数据增强也可以做,但作者考虑到很多人可能只有一个GPU,因此Mosaic增强训练时,可以直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果。-----这个解释没看懂什么意思。。。。

Backbone创新

YOLO V4的backbone在Darknet53的基础上将Res X模块改为了CSP模块,CSP模块的第一个卷积层起到了降采样的作用,共5个CSP模块,经过5个CSP模块输入图像的分辨率变为原来的\frac {1}{32}
CSP模块原始的做法是先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时可以保证准确率,但是YOLO V4中是采取先分成两路,每一路都先用1x1降维的方式将特征的channel压缩到原来的一半,然后进行后续处理,或继续进行卷积或等待另一路的处理结果进行concat操作

Dropblock:Yolov4中使用的Dropblock,其实和常见网络中的Dropout功能类似,也是缓解过拟合的一种正则化方式。Dropout:训练时随机删除神经元,使网络变得更简单

Dropout

Dropblock的研究者认为,卷积层对于这种随机丢弃并不敏感,因为卷积层通常是三层连用:卷积+激活+池化层,池化层本身就是对相邻单元起作用。而且即使随机丢弃,卷积层仍然可以从相邻的激活单元学习到相同的信息,在全连接层上效果很好的Dropout在卷积层上效果并不好,Dropblock的研究者则干脆整个局部区域进行删减丢弃,这种方式其实是借鉴2017年的cutout数据增强的方式,cutout是将输入图像的部分区域清零,而Dropblock则是将Cutout应用到每一个特征图。而且并不是用固定的归零比率,而是在训练时以一个小的比率开始,随着训练过程线性的增加这个比率
cutout--升级版Dropblock

neck部分创新

在目标检测领域,为了更好的提取融合特征,通常在Backbone和输出层,会插入一些层,这个部分称为Neck。相当于目标检测网络的颈部,也是非常关键的

YOLO V3的neck部分用了Top-to-Down的FPN进行多尺度预测
YOLO V4则在neck部分插入了SPP,并利用PAN+FPN结构替换YOLO V3里面的FPN

SPP

注意:SPP模块中的池化采用了padding操作,保证输出的特征的H,W大小不变
采用SPP模块的方式,比单纯的使用kxk最大池化的方式,更有效的增加主干特征的接收范围,显著的分离了最重要的上下文特征
FPN

PAN

FPN是自上而下的进行特征融合,并在每个尺度都进行预测,自上而下特征由小到大,感受野由大到小,预测的目标由大到小。
PAN结构是自下向上的特征融合,也是在每个尺度都进行预测,自下而上的特征由大到小,感受野由小到大,预测的目标大小由小到大。
FPN层自顶向下传达强语义特征,而特征金字塔则自底向上传达强定位特征
注意一:
Yolov3的FPN层输出的三个大小不一的特征图①②③直接进行预测
但Yolov4的FPN层,只使用最后的一个76*76特征图①,而经过两次PAN结构,输出预测的特征图②和③。
这里的不同也体现在cfg文件中,这一点有很多同学之前不太明白,
比如Yolov3.cfg最后的三个Yolo层,
第一个Yolo层是最小的特征图19x19,mask=6,7,8,对应最大的anchor box。
第二个Yolo层是中等的特征图38x38,mask=3,4,5,对应中等的anchor box。
第三个Yolo层是最大的特征图76x76,mask=0,1,2,对应最小的anchor box。
而Yolov4.cfg则恰恰相反
第一个Yolo层是最大的特征图76x76,mask=0,1,2,对应最小的anchor box。
第二个Yolo层是中等的特征图38x38,mask=3,4,5,对应中等的anchor box。
第三个Yolo层是最小的特征图19x19,mask=6,7,8,对应最大的anchor box。
注意二:
原本的PANet网络的PAN结构中,两个特征图结合是采用shortcut操作,而Yolov4中则采用concat(route)操作,特征图融合后的尺寸发生了变化。
PANet里面的shortcut结构vsYOLO V4中的route结构

Prediction的创新

loss部分可以参考:
https://zhuanlan.zhihu.com/p/143747206
这部分的重点是:YOLOV3里面优化t_x,t_y,t_w,t_h直接采用b_x,b_y,b_w,b_hG_x,G_y,G_w,G_h间的L_2损失函数,而YOLOV4里面改为使用DIOU_{loss}进行优化,YOLOV3中的优化方式中t_x,t_y,t_w,t_h的优化是相互独立的,而评价指标以及NMS的IOU计算方式中四者并不是相互独立的,这就导致用于优化网络的损失函数与评级指标之间存在一个GAP,所以YOLOV4里面就采用了与IOU有关的CIOU损失函数来优化t_x,t_y,t_w,t_h,关于IOU相关的损失函数可以参考:https://bbs.huaweicloud.com/blogs/229877,另外YOLOV4在NMS阶段也用DIOU替换了IOU,这样可以改善密集目标的检测结果;注意:CIOU用在训练阶段,DIOU用在NMS阶段,两者之间的区别是CIOU考虑了预测框长宽比与目标框长宽比之间的关系,需要由GT框,而在NMS是没有GT框的,所以用DIOU进行NMS操作。
CIOU loss+ DIOU nms

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容