YOLO V4

image.png

YOLOV4论文：Yolov4: Optimal Speed and Accuracy of Object Detection
YOLOV4网络可视化：netron可视化

YOLO V4的整体网络结构与YOLO V3一致，都分为输入,backbone,neck,predictions四部分
YOLO V4中模块与YOLO V3对比：
CBM模块：与yolov3里面的CBL模块相比，yolov4将yolov3里面的Leaky Relu激活函数替换为Mish激活函数

CBM

Mish activation

Leaky ReLu

Res unit:内部将YOLO V3的CBL替换为YOLO V4的CBM

image.png

SPP：使用1x1,5x5,9x9,13x13最大池化的方式，将池化结果进行concat

SPP

CSP模块：在channel维度对输入进行拆分，分成两路进行处理，目的是减小计算量，具体来说YOLO V4中的实现方式为：采用1x1的卷积将输出特征的channels数减半，然后分两路进行后续操作

image.png

PAN结构:

PAN

YOLO V4创新点：

1.输入端：这里指的创新主要是训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练
2.BackBone主干网络：将各种新的方式结合起来，包括：CSPDarknet53、Mish激活函数、Dropblock(注：CBM模块仅存在于BackBone中,网络的neck和prediction部分依然沿用YOLO V3中的CBL模块)
3.Neck：目标检测网络在BackBone和最后的输出层之间往往会插入一些层，比如Yolov4中的SPP模块、FPN+PAN结构
4.Prediction：输出层的锚框机制和Yolov3相同，主要改进的是训练时的损失函数CIOU_Loss，以及预测框筛选的nms变为DIOU_nms

Mosaic数据增强

Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接

这里首先要了解为什么要进行Mosaic数据增强呢?

在平时项目训练时，小目标的AP一般比中目标和大目标低很多。而coco数据集中也包含大量的小目标，但比较麻烦的是小目标的分布并不均匀。
主要有几个优点：
丰富数据集：随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。
减少GPU：可能会有人说，随机缩放，普通的数据增强也可以做，但作者考虑到很多人可能只有一个GPU，因此Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。-----这个解释没看懂什么意思。。。。

Backbone创新

YOLO V4的backbone在Darknet53的基础上将Res X模块改为了CSP模块，CSP模块的第一个卷积层起到了降采样的作用，共5个CSP模块，经过5个CSP模块输入图像的分辨率变为原来的 $\frac {1}{32}$
CSP模块原始的做法是先将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，在减少了计算量的同时可以保证准确率，但是YOLO V4中是采取先分成两路，每一路都先用1x1降维的方式将特征的channel压缩到原来的一半，然后进行后续处理，或继续进行卷积或等待另一路的处理结果进行concat操作

Dropblock:Yolov4中使用的Dropblock，其实和常见网络中的Dropout功能类似，也是缓解过拟合的一种正则化方式。Dropout：训练时随机删除神经元，使网络变得更简单

Dropout

Dropblock的研究者认为，卷积层对于这种随机丢弃并不敏感，因为卷积层通常是三层连用：卷积+激活+池化层，池化层本身就是对相邻单元起作用。而且即使随机丢弃，卷积层仍然可以从相邻的激活单元学习到相同的信息,在全连接层上效果很好的Dropout在卷积层上效果并不好,Dropblock的研究者则干脆整个局部区域进行删减丢弃,这种方式其实是借鉴2017年的cutout数据增强的方式，cutout是将输入图像的部分区域清零，而Dropblock则是将Cutout应用到每一个特征图。而且并不是用固定的归零比率，而是在训练时以一个小的比率开始，随着训练过程线性的增加这个比率

cutout--升级版Dropblock

neck部分创新

在目标检测领域，为了更好的提取融合特征，通常在Backbone和输出层，会插入一些层，这个部分称为Neck。相当于目标检测网络的颈部，也是非常关键的

YOLO V3的neck部分用了Top-to-Down的FPN进行多尺度预测
YOLO V4则在neck部分插入了SPP，并利用PAN+FPN结构替换YOLO V3里面的FPN

SPP

注意：SPP模块中的池化采用了padding操作，保证输出的特征的H,W大小不变
采用SPP模块的方式，比单纯的使用kxk最大池化的方式，更有效的增加主干特征的接收范围，显著的分离了最重要的上下文特征

FPN

PAN

FPN是自上而下的进行特征融合，并在每个尺度都进行预测，自上而下特征由小到大，感受野由大到小，预测的目标由大到小。
PAN结构是自下向上的特征融合，也是在每个尺度都进行预测，自下而上的特征由大到小，感受野由小到大，预测的目标大小由小到大。
FPN层自顶向下传达强语义特征，而特征金字塔则自底向上传达强定位特征
注意一：
Yolov3的FPN层输出的三个大小不一的特征图①②③直接进行预测
但Yolov4的FPN层，只使用最后的一个76*76特征图①，而经过两次PAN结构，输出预测的特征图②和③。
这里的不同也体现在cfg文件中，这一点有很多同学之前不太明白，
比如Yolov3.cfg最后的三个Yolo层，
第一个Yolo层是最小的特征图19x19，mask=6,7,8，对应最大的anchor box。
第二个Yolo层是中等的特征图38x38，mask=3,4,5，对应中等的anchor box。
第三个Yolo层是最大的特征图76x76，mask=0,1,2，对应最小的anchor box。
而Yolov4.cfg则恰恰相反
第一个Yolo层是最大的特征图76x76，mask=0,1,2，对应最小的anchor box。
第二个Yolo层是中等的特征图38x38，mask=3,4,5，对应中等的anchor box。
第三个Yolo层是最小的特征图19x19，mask=6,7,8，对应最大的anchor box。
注意二：
原本的PANet网络的PAN结构中，两个特征图结合是采用shortcut操作，而Yolov4中则采用concat（route）操作，特征图融合后的尺寸发生了变化。

PANet里面的shortcut结构vsYOLO V4中的route结构

Prediction的创新

loss部分可以参考：
https://zhuanlan.zhihu.com/p/143747206
这部分的重点是：YOLOV3里面优化 $t_x$ , $t_y$ , $t_w$ , $t_h$ 直接采用 $b_x$ , $b_y$ , $b_w$ , $b_h$ 与 $G_x$ , $G_y$ , $G_w$ , $G_h$ 间的 $L_2$ 损失函数，而YOLOV4里面改为使用 $DIOU_{loss}$ 进行优化，YOLOV3中的优化方式中 $t_x$ , $t_y$ , $t_w$ , $t_h$ 的优化是相互独立的，而评价指标以及NMS的IOU计算方式中四者并不是相互独立的，这就导致用于优化网络的损失函数与评级指标之间存在一个GAP,所以YOLOV4里面就采用了与IOU有关的CIOU损失函数来优化 $t_x$ , $t_y$ , $t_w$ , $t_h$ ，关于IOU相关的损失函数可以参考：https://bbs.huaweicloud.com/blogs/229877，另外YOLOV4在NMS阶段也用DIOU替换了IOU，这样可以改善密集目标的检测结果；注意:CIOU用在训练阶段，DIOU用在NMS阶段，两者之间的区别是CIOU考虑了预测框长宽比与目标框长宽比之间的关系，需要由GT框，而在NMS是没有GT框的，所以用DIOU进行NMS操作。
CIOU loss+ DIOU nms

最后编辑于：2021.05.11 16:36:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,133评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,682评论 3赞 390
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,784评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,508评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,603评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,607评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,604评论 3赞 415
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,359评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,805评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,121评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,280评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,959评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,588评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,206评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,442评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,193评论 2赞 367
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,144评论 2赞 352

YOLO V4

YOLO V4创新点：

Mosaic数据增强

Backbone创新

neck部分创新

Prediction的创新

推荐阅读更多精彩内容