登录注册写文章

texbox++_2018_华科白翔

texbox++_2018_华科白翔

旋转文本检测，基于ssd

1、ssd目标检测算法

backbone
VGG16，输入是固定大小的图像，输出是下采样的特征图。
neck
输入是VGG产生的不同尺度的特征图，输出是经过卷积处理后不同尺度特征图。不过每个尺度的特征图之间没有交集。
head
输入是不同尺度特征图，以及每个cell的锚点框的大小和中心位置。其中锚点框有5个长宽比例：{1,2,3,1/2,1/3}，也就是一个尺度上的一个cell对应5个不同长宽比的锚点框。输出是每个cell目标类别，这里类别是真实类别加背景。以及相对于每个锚点框的位置和尺寸偏移量。最后使用NMS输出最终检测结果。
总结
ssd的特点：单阶段、多尺度、

2、 textbox

提出textbox layer

改进1：锚点框
首先是默认锚点框的长宽比和位置发生了变化。

图片.png

如上图，长宽比变成1,3,5,7,10。而且因为锚点框在水平方向密集，在竖直方向稀疏，又对默认锚点框位置在竖直方向偏移一半的cell尺寸。这样原来没有对应的锚点框也能匹配的很好。
改进2：卷积核
原来的33卷积核改进成15的卷积核，该卷积核更利于检测长条形目标。
测试时输入多尺度图像
将原始图像调整成不同尺度输入图像，得到检测结果，使用NMS抑制。提高了5个点。注意训练时没有使用多尺度，只有测试时采用了多尺度。

3、 textbox++

textboxs++提出两种四边形的检测，一个是倾斜的矩形，一个是一般四边形

锚点框长宽比
1; 2; 3; 5; 1/2; 1/3; 1/5.因为要检测倾斜矩形框，所有区域就不一定是狭长的，所以比例又变回原来的内容。
训练时IOU匹配原则
如果是倾斜矩形，那么使用最小外接矩形作为GT与锚点框匹配IOU。
如果是四边形，就使用该四边形匹配锚点框IOU
head坐标偏移量回归梳理
两种标注方法均回归最小外接矩形。那么，偏移量的参数如下：
如果是倾斜矩形，就是4（中心点坐标和长宽偏移）+5（左上角，右上角坐标和高度）
如果是一般四边形，就是4+8（4个顶点的x、y坐标偏移量）

图片.png

偏移量计算方式
主要问题：训练时需要确认锚点框和GT四个顶点对应关系，才好计算偏移量。
1、一般四边形。

图片.png

首先顶点b的顺序不变，左上角顺时针标记。而四边形标记方式使用上面的公式计算。本质就是确定b1回归的是哪个顶点，确定后，其他顶点就确定了。确定原则是依次对标b1，q’1，b1、b1，q’2。。。然后计算四个顶点欧氏距离和，选择最小和的q’n作为q1。
2、倾斜矩形
普遍做法是使用中心点、长宽和角度值回归。但是训练集中角度θ分布是不均匀的，存在某些角度取值概率更大。所以这里回归的宽度h。
训练和测试都用了多尺度策略

最后编辑于：2022.02.08 15:55:45

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文