YOLOV4论文:Yolov4: Optimal Speed and Accuracy of Object Detection
YOLOV4网络可视化:netron可视化
YOLO V4的整体网络结构与YOLO V3一致,都分为输入,backbone,neck,predictions四部分
YOLO V4中模块与YOLO V3对比:
CBM模块:与yolov3里面的CBL模块相比,yolov4将yolov3里面的Leaky Relu激活函数替换为Mish激活函数
Res unit:内部将YOLO V3的CBL替换为YOLO V4的CBM
SPP:使用1x1,5x5,9x9,13x13最大池化的方式,将池化结果进行concat
CSP模块:在channel维度对输入进行拆分,分成两路进行处理,目的是减小计算量,具体来说YOLO V4中的实现方式为:采用1x1的卷积将输出特征的channels数减半,然后分两路进行后续操作
PAN结构:
YOLO V4创新点:
1.输入端:这里指的创新主要是训练时对输入端的改进,主要包括Mosaic数据增强、cmBN、SAT自对抗训练
2.BackBone主干网络:将各种新的方式结合起来,包括:CSPDarknet53、Mish激活函数、Dropblock(注:CBM模块仅存在于BackBone中,网络的neck和prediction部分依然沿用YOLO V3中的CBL模块)
3.Neck:目标检测网络在BackBone和最后的输出层之间往往会插入一些层,比如Yolov4中的SPP模块、FPN+PAN结构
4.Prediction:输出层的锚框机制和Yolov3相同,主要改进的是训练时的损失函数CIOU_Loss,以及预测框筛选的nms变为DIOU_nms
Mosaic数据增强
Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式,但CutMix只使用了两张图片进行拼接,而Mosaic数据增强则采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接
这里首先要了解为什么要进行Mosaic数据增强呢?
在平时项目训练时,小目标的AP一般比中目标和大目标低很多。而coco数据集中也包含大量的小目标,但比较麻烦的是小目标的分布并不均匀。
主要有几个优点:
丰富数据集:随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。
减少GPU:可能会有人说,随机缩放,普通的数据增强也可以做,但作者考虑到很多人可能只有一个GPU,因此Mosaic增强训练时,可以直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果。-----这个解释没看懂什么意思。。。。
Backbone创新
YOLO V4的backbone在Darknet53的基础上将Res X模块改为了CSP模块,CSP模块的第一个卷积层起到了降采样的作用,共5个CSP模块,经过5个CSP模块输入图像的分辨率变为原来的
CSP模块原始的做法是先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时可以保证准确率,但是YOLO V4中是采取先分成两路,每一路都先用1x1降维的方式将特征的channel压缩到原来的一半,然后进行后续处理,或继续进行卷积或等待另一路的处理结果进行concat操作
Dropblock:Yolov4中使用的Dropblock,其实和常见网络中的Dropout功能类似,也是缓解过拟合的一种正则化方式。Dropout:训练时随机删除神经元,使网络变得更简单
Dropblock的研究者认为,卷积层对于这种随机丢弃并不敏感,因为卷积层通常是三层连用:卷积+激活+池化层,池化层本身就是对相邻单元起作用。而且即使随机丢弃,卷积层仍然可以从相邻的激活单元学习到相同的信息,在全连接层上效果很好的Dropout在卷积层上效果并不好,Dropblock的研究者则干脆整个局部区域进行删减丢弃,这种方式其实是借鉴2017年的cutout数据增强的方式,cutout是将输入图像的部分区域清零,而Dropblock则是将Cutout应用到每一个特征图。而且并不是用固定的归零比率,而是在训练时以一个小的比率开始,随着训练过程线性的增加这个比率
neck部分创新
在目标检测领域,为了更好的提取融合特征,通常在Backbone和输出层,会插入一些层,这个部分称为Neck。相当于目标检测网络的颈部,也是非常关键的
YOLO V3的neck部分用了Top-to-Down的FPN进行多尺度预测
YOLO V4则在neck部分插入了SPP,并利用PAN+FPN结构替换YOLO V3里面的FPN
注意:SPP模块中的池化采用了padding操作,保证输出的特征的H,W大小不变
采用SPP模块的方式,比单纯的使用kxk最大池化的方式,更有效的增加主干特征的接收范围,显著的分离了最重要的上下文特征
FPN是自上而下的进行特征融合,并在每个尺度都进行预测,自上而下特征由小到大,感受野由大到小,预测的目标由大到小。
PAN结构是自下向上的特征融合,也是在每个尺度都进行预测,自下而上的特征由大到小,感受野由小到大,预测的目标大小由小到大。
FPN层自顶向下传达强语义特征,而特征金字塔则自底向上传达强定位特征
注意一:
Yolov3的FPN层输出的三个大小不一的特征图①②③直接进行预测
但Yolov4的FPN层,只使用最后的一个76*76特征图①,而经过两次PAN结构,输出预测的特征图②和③。
这里的不同也体现在cfg文件中,这一点有很多同学之前不太明白,
比如Yolov3.cfg最后的三个Yolo层,
第一个Yolo层是最小的特征图19x19,mask=6,7,8,对应最大的anchor box。
第二个Yolo层是中等的特征图38x38,mask=3,4,5,对应中等的anchor box。
第三个Yolo层是最大的特征图76x76,mask=0,1,2,对应最小的anchor box。
而Yolov4.cfg则恰恰相反
第一个Yolo层是最大的特征图76x76,mask=0,1,2,对应最小的anchor box。
第二个Yolo层是中等的特征图38x38,mask=3,4,5,对应中等的anchor box。
第三个Yolo层是最小的特征图19x19,mask=6,7,8,对应最大的anchor box。
注意二:
原本的PANet网络的PAN结构中,两个特征图结合是采用shortcut操作,而Yolov4中则采用concat(route)操作,特征图融合后的尺寸发生了变化。
Prediction的创新
loss部分可以参考:
https://zhuanlan.zhihu.com/p/143747206
这部分的重点是:YOLOV3里面优化,,,直接采用,,,与,,,间的损失函数,而YOLOV4里面改为使用进行优化,YOLOV3中的优化方式中,,,的优化是相互独立的,而评价指标以及NMS的IOU计算方式中四者并不是相互独立的,这就导致用于优化网络的损失函数与评级指标之间存在一个GAP,所以YOLOV4里面就采用了与IOU有关的CIOU损失函数来优化,,,,关于IOU相关的损失函数可以参考:https://bbs.huaweicloud.com/blogs/229877,另外YOLOV4在NMS阶段也用DIOU替换了IOU,这样可以改善密集目标的检测结果;注意:CIOU用在训练阶段,DIOU用在NMS阶段,两者之间的区别是CIOU考虑了预测框长宽比与目标框长宽比之间的关系,需要由GT框,而在NMS是没有GT框的,所以用DIOU进行NMS操作。
CIOU loss+ DIOU nms