YOLO:you only look once:Unified,Real-Time Object Detection

??什么叫一个物体的中心落在某网格内，则相应网格负责检测该物体

答：意思是指如果某个groundtruth的中心点落在该网格，则该网格负责对该物体的boundingbox进行回归

Construct of YOLO

区别于之前目标检测的R-CNN系列，通过region proposal+分类的方式实现检测的功能，YOLO没有选择滑动窗口或提取proposal的方式来训练网络，而是直接选用整张图的训练模式。其一次性预测多个Box位置和类别，实现端到端到目标检测和识别，其最大的优势在于其速度很快，但精度上有所损失。相比于R-CNN系列，其能更好地区分出目标和背景区域。另外，YOLO相当于是一个实现回归功能的CNN网络，其预测出boundingbox的位置及confidence以及所属类别的概率。

总体思路：将整张图片划分成n*n个单元，每个单元通过回归产生B个boundingbox,对每个单元中的boundingbox进行筛选是通过IOU值的大小进行的，保留IOU值最大的那个boundingbox，最后对于整幅图像上的boundingbox通过非极大值抑制的方式筛选出目标的检测框。

训练过程：

Step1：将图片划分成单元格

将整张图片划分成s*s个单元格（文中设置s=7），若有待检测物体的中心落入该单元格中，则该单元格负责对该物体的检测（？？如何判断物体中心是否落入该单元格）。每个单元格产生类别预测结果（文中为20类），每个单元格回归产生B个boundingbox，每个boundingbox共享该单元格中的类别预测值。