YOLO v3~v5

V3

v3主要就做了两个事情,一个是换了v2里的backbone,从darknet19换成了darknet53,加深了层数,并且加了残差通道。
另外v3还借鉴FPN(Feature Pyramid Networks)对多尺度的特征做了融合。
网络输入是416*416*3的图,输出有三个尺度,13*13*255, 26*26*255,52*52*255。然后每个尺度都融合了前一个尺度的上采样特征。从而帮助模型学习到不同尺度的特征,而且也帮助模型可以更好的检测小物体。

V4

替换了激活函数,从leaky relu换成了mish,mish的好处是减小了过小值对模型的影响(leaky relu中如果值过小,对模型的影响反而大),而且比leaky relu更平滑。
使用了SPP层,金字塔池化。
FPN+PAN:先自上到下学习语义信息,再自下到上学习定位信息
mosaic数据增强,将不同图片堆叠到一张图上,解决小目标比较少的问题。
dropblock,因为dropout是一个个神经的丢,很有可能细粒度太小导致起不到正则的效果,因此dropblock就是一块一块的丢。
CIOU:解决了IOU无法提供优化方向的问题,因为IOU只是提供了重合度,但没提供如何减小重合度的方向

V5

出了四个模型,可以根据需求选择
自适应图片缩放,自适应锚框缩放

参考链接
https://www.bilibili.com/video/BV1Vg411V7bJ
https://www.bilibili.com/video/BV1kv4y1Z7eR

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容