Densebox整体思想
不用锚点框。直接使用特征图预测是否存在目标,以及目标的左上右下两个顶点的 横纵坐标。也就是说,利用最终得到的特征图直接得到五个通道结果。每个结果都可以看做是一幅图像。
其他特点:初阶的尺度金字塔思想,以及跨层连接思想。
-
整体网络架构
网络输出
最终特征通道是60x60x512,使用1x1x1卷积核得到每个位置的是否含有目标的分数;使用1x1x4的卷积核得到每个位置与最近目标的四个坐标点的距离。细节
1.训练数据和标签制作:
图片被裁剪并调整到240x240的大小,确保中心存在人脸目标;输出的ground truth 是一个经过4倍下采样后大小为60x60x5的map。其中目标置信度外接圆半径的0.3区域内的像素点为1,表示存在目标。其余区域为0;剩下四个通道就是每个像素点距离目标左上右下的像素距离。
将特定尺寸中心处包含目标中心的输入patch称为"positive patch",这些patches在正样本的周围只包含负样本。本文将输入图片中随机进行裁剪,并resize到相同的大小送入网络中,这类patch称为"random patches","positive patch"与"random patch"的比例为1:1
2.正负样本选取:
使用一个二值mask输出像素,用于决定是否为训练样本。此外,不使用边界区域作为训练数据,具体方式是一个负样本周围两个像素点内是1,那么就忽略该样本。
unitbox:densebox的改进。
densebox直接回归L2损失,就默认四个坐标点彼此独立。实际上它们是有强相关性的,所以将L2损失换成了IOU损失,
East
借鉴上面两个模型,做适应性改进
- 网络结构
使用PVAnet,U-shape,最终得到31个通道的特征图,利用该特征图回归目标置信度损失和倾斜旋转框偏移量或四边形坐标偏移量。
1、对于rbox,回归中心点到四条边的距离,以及和水平方向的夹角θ。有了夹角和竖直距离,就能先确定上下两条边的方向,然后确定左右两条边的距离。
2、对于一般四边形,直接回归四个顶点8个坐标值就可以。 - 损失函数
1、对于rbox,使用iou损失函数
2、对于一般四边形,使用改进的平滑l1损失函数。 - 局部感知NMS
局部感知NMS(locality-aware NMS)
与通用目标检测相似,阈值化后的结果需要经过非极大值抑制(NMS)来得到最终的结果.由于本文中面临的是成千上万个几何体,如果用普通的NMS,其计算复杂度是O(n^2)O(n2),n是几何体的个数,这是不可接受的.针对上述时间复杂度问题,本文提出了基于行合并几何体的方法,当然这是基于邻近几个几何体是高度相关的假设.注意:这里合并的四边形坐标是通过两个给定四边形的得分进行加权平均的,也就是说这里是"平均"而不是"选择"几何体