YOLO v3~v5

V3

v3主要就做了两个事情，一个是换了v2里的backbone，从darknet19换成了darknet53，加深了层数，并且加了残差通道。
另外v3还借鉴FPN(Feature Pyramid Networks)对多尺度的特征做了融合。
网络输入是416*416*3的图，输出有三个尺度，13*13*255， 26*26*255，52*52*255。然后每个尺度都融合了前一个尺度的上采样特征。从而帮助模型学习到不同尺度的特征，而且也帮助模型可以更好的检测小物体。

V4

替换了激活函数，从leaky relu换成了mish，mish的好处是减小了过小值对模型的影响（leaky relu中如果值过小，对模型的影响反而大），而且比leaky relu更平滑。
使用了SPP层，金字塔池化。
FPN+PAN：先自上到下学习语义信息，再自下到上学习定位信息
mosaic数据增强，将不同图片堆叠到一张图上，解决小目标比较少的问题。
dropblock，因为dropout是一个个神经的丢，很有可能细粒度太小导致起不到正则的效果，因此dropblock就是一块一块的丢。
CIOU:解决了IOU无法提供优化方向的问题，因为IOU只是提供了重合度，但没提供如何减小重合度的方向

V5

出了四个模型，可以根据需求选择
自适应图片缩放，自适应锚框缩放

参考链接
https://www.bilibili.com/video/BV1Vg411V7bJ
https://www.bilibili.com/video/BV1kv4y1Z7eR

最后编辑于：2021.12.31 08:16:00

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

YOLO v3~v5

YOLO v3~v5

V3

V4

V5

相关阅读更多精彩内容

友情链接更多精彩内容