目标分类和定位(classification with localization)
前面的例子中讨论了很多关于图片分类的应用,在计算机视觉中另一个重要的应用是在图片中找到某一类特定物体的位置,这一类问题称为分类和定位问题。再进一步就是自动识别和检测视野内任意多类物体及其位置,这一类问题则称为目标检测 object detection。
为了在输出中标识出被定位物体的位置,神经网络的输出除了可能的分类之外还可以给出边界框的位置参数,本课中对于这四个参数用 bx,by,bh,bw 四个数字来表示。其中:bx,by 为边界中点的坐标,bh 为边界高度,bw 为边界宽度。如果将图片的左上角坐标用(0,0)表示,右下角用(1,1)表示,则这几个数字的实际数值会随着被定位目标在图片上的位置而变化。
为了得到这样的训练输出,输入数据的标签值 y 需要表示成一个包含 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 等多个数值的向量,其中 Pc 代表图片中是否包含某几类物体,包含时 Pc = 1,否则 Pc = 0,当 Pc = 1 时,Cn 代表图片中所包含的物体是所要分类的几类物体中的第几类。在实际应用中,如果 Pc = 0 那么这个标签中的剩余数值都没有意义,可以将其设置为 ?。
对于任意一个训练样本的损失函数采用平方误差的方式定义时:
当 Pc = 1 时,L(ŷ, y) = (ŷ1 - y1)2 + (ŷ2 - y2)2 + ... + (ŷi - yi)2,此处 i 表示 y 的维数,即对应位置坐标之差的平方和
当 Pc = 0 时,L(ŷ, y) = (ŷ1 - y1)2
特征点检测(landmark detection)
除了可以输出 bx,by,bh,bw 这个四个坐标来定位整体位置外,还可以要求网络输出图像上的某些预先定义的一个或多个特征点的位置,并将 y 用 Pc, l1x,l1y,l2x,l2y,...,lnx,lny 表示,例如人脸识别中的眼角的位置,下巴轮廓位置等。由于这类应用中特征点的坐标值都是需要人为手工去做标注,且必须在所有样本上保持同样的标注顺序,因此是一个非常耗费人力的工作。
移动窗口目标检测(Sliding windows detection)
移动窗口目标检测是通过在大的视野或图片中以设定的步长移动某个尺寸的检测窗口,逐个窗口的检测图片中是否包含待查找目标的技术。在第一次检测时如果未发现待检测目标,可以放大窗口,并更改步长多次实施检测。这一方法相当于让系统对于图片进行扫读,其主要缺点就是遍历过程所需的计算量,而如果通过卷积运算的方式来实施这一方法,则可以大大的减小所需的计算量和时间。其核心操作方法是将前续卷积运算后的多次全连接层运算(每一次全连接层运算对应一个窗口的检测)转换成卷积运算,使得系统可以一次性的完成多个窗口的检测:
YOLO(You Only Look Once)目标边界预测
前面提到,在很多计算机视觉任务中通过在网络中检测到目标后还要在目标的周围用边框进行标识,并且由于目标的边框形状通常为矩形而非正方形,因此目标的分类和定位的边界尺寸常用 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 这样一个向量进行标识,YOLO 算法是通过构建合适的神经网络实现边界输出的一个经典方式,其实现方法为:
首先通过网格将图片分隔成多个小的子图片,每一张子图片就相当于前面一节所述的滑动窗口
在每一张子图片上应用前面的分类和定位算法来寻找目标,网络在每一个子图片上的输出是 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 这样一个向量,且当 Pc = 0 时,标签向量的后续位置的值将无关紧要。如果同一个物体横跨多个子图,则令包含被检测目标的中点的子图的输出向量 Pc = 1,对应的边框坐标输出为 bx,by,bh,bw,且当网格的尺寸选择的足够小的时候,可以减量避免同一个网格中包含两个物体的中点的情况
个别情况下当同一个网格中同时出现多个分类时,还可以实施 Anchor box 来构造输出,即通过选择预先设定的多个形状的 Anchor box,将输出 y 构造成可以同时表达多个 Anchor box 形状的向量,即 Pc,bx,by,bh,bw,C1,C2,C3,...,Cn,Pc,bx,by,bh,bw,C1,C2,C3,...,Cn,Pc,bx,by,bh,bw,C1,C2,C3,...,Cn 的形式,其中每一组数值代表与对应 Anchor box 相匹配的输出。在训练数据中会将目标分配到既包含目标中点、又能够使得被检测目标的形状与某个 Anchor box 形状具有最大交并比(Intesection over Union, IoU)的网格中。注意当预定义的 Anchor box 的数量少于被判断目标的数量时,这个算法可能无法有效的构造输出;同时当两个目标物体具有相同的 Anchor box 形状时这个方法也将失效。
由于对于图片做了网格划分,因此很可能同一个目标会跨越多个网格,算法可能在多个网格中检测到同一个物体,此时就需要通过非极大抑制算法来首先找到具有最大 Pc 值的网格,再判断这个网格与其他 Pc 超过一定阈值(一般取 Pc > 0.6)的网格的交并比,并抑制掉 IoU ≥ 0.5 的网格,从而实现单个目标的单一检测输出。当被检测目标有多个分类时,需要对每一个分类单独进行一次非极大抑制检测,并将 Pc 乘以取得相应的分类的概率来评价最大值。