V3
v3主要就做了两个事情,一个是换了v2里的backbone,从darknet19换成了darknet53,加深了层数,并且加了残差通道。
另外v3还借鉴FPN(Feature Pyramid Networks)对多尺度的特征做了融合。
网络输入是416*416*3的图,输出有三个尺度,13*13*255, 26*26*255,52*52*255。然后每个尺度都融合了前一个尺度的上采样特征。从而帮助模型学习到不同尺度的特征,而且也帮助模型可以更好的检测小物体。
V4
替换了激活函数,从leaky relu换成了mish,mish的好处是减小了过小值对模型的影响(leaky relu中如果值过小,对模型的影响反而大),而且比leaky relu更平滑。
使用了SPP层,金字塔池化。
FPN+PAN:先自上到下学习语义信息,再自下到上学习定位信息
mosaic数据增强,将不同图片堆叠到一张图上,解决小目标比较少的问题。
dropblock,因为dropout是一个个神经的丢,很有可能细粒度太小导致起不到正则的效果,因此dropblock就是一块一块的丢。
CIOU:解决了IOU无法提供优化方向的问题,因为IOU只是提供了重合度,但没提供如何减小重合度的方向
V5
出了四个模型,可以根据需求选择
自适应图片缩放,自适应锚框缩放
参考链接
https://www.bilibili.com/video/BV1Vg411V7bJ
https://www.bilibili.com/video/BV1kv4y1Z7eR