YOLO:you only look once:Unified,Real-Time Object Detection

??什么叫一个物体的中心落在某网格内,则相应网格负责检测该物体

答:意思是指如果某个groundtruth的中心点落在该网格,则该网格负责对该物体的boundingbox进行回归

Construct of YOLO

区别于之前目标检测的R-CNN系列,通过region proposal+分类的方式实现检测的功能,YOLO没有选择滑动窗口或提取proposal的方式来训练网络,而是直接选用整张图的训练模式。其一次性预测多个Box位置和类别,实现端到端到目标检测和识别,其最大的优势在于其速度很快,但精度上有所损失。相比于R-CNN系列,其能更好地区分出目标和背景区域。另外,YOLO相当于是一个实现回归功能的CNN网络,其预测出boundingbox的位置及confidence以及所属类别的概率。

总体思路:将整张图片划分成n*n个单元,每个单元通过回归产生B个boundingbox,对每个单元中的boundingbox进行筛选是通过IOU值的大小进行的,保留IOU值最大的那个boundingbox,最后对于整幅图像上的boundingbox通过非极大值抑制的方式筛选出目标的检测框。

训练过程:

Step1:将图片划分成单元格

将整张图片划分成s*s个单元格(文中设置s=7),若有待检测物体的中心落入该单元格中,则该单元格负责对该物体的检测(??如何判断物体中心是否落入该单元格)。每个单元格产生类别预测结果(文中为20类),每个单元格回归产生B个boundingbox,每个boundingbox共享该单元格中的类别预测值。

每个预测的boundingbox包含5个参数——boundingbox的中心坐标(x,y)以及boundingbox的(width,height)以及一个confidence,其计算方式为:

confidence表达式

此处的IOU表示的是该boundingbox与若干个groundtruth的IOU中值最大的那个。

注:class信息是针对每个单元格而言的,confidence信息是针对每个boundingbox而言的。下图说明了所有预测值参数的计算方式:

其实现的网络结构如下图所示:(??最后如何从4096转换成7*7*30)

Network

Step2:损失函数设计

loss function

测试阶段:

testing method

性能评估

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容