TextBoxes与TextBoxes++算法详解

这是两篇文章，因为这两篇文章大部分是相同的所以写一块了。

TextBoxes

《TextBoxes: A Fast Text Detector with a Single Deep Neural Network
》发表于AAAI2017
github地址：https://github.com/MhLiao/TextBoxes

这篇文章是借鉴SSD的网络用于文字检测，创新也不是太大。还有一点要清楚的是作者设计该网络的时候是将该网络作为word-based这一类来做的，就是说该算法设计初衷是针对词分割的，这里说的词应该是对于英文来说的。

一、网络结构

网络结构如下图所示，该网络结构就是将SSD中的全连接去掉换成卷积，并且为了适应文字检测的任务（考虑到文字的长宽比不同于物体，可能长宽比较大）使用1*5的卷积核代替3*3的卷积核。还有default boxes的比例也不同于SSD，采用1、2、3、5、7、10几种。得到的default boxes后使用SSD一样的回归方式回归出可能的结果。

图1.png

还有一个不同于SSD的地方，因为文中采用了不一样尺寸的default boxes，这些尺寸都是细长形的，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。下图中为了便于观看只显示了宽高比为1和5的default box，其余比例的box以此类推。图中黑色框（宽高比为5的框）和蓝色框（宽高比为1的框）是中心在cell中心的default box，绿色（宽高比为5的框）和红色（宽高比为1的框）的框中心位于cell中心加上cell一半高的位置。

图2.png

二、损失函数的定义

文章中的损失函数与SSD的损失函数一样，定义如下：
$L(x,c,l,g)=\frac{1}{N}(L_{conf}(x,c)+\alpha L_{loc}(x,l,g))$
其中， $x$ 表示匹配指示矩阵（match indication matrix），对于第i个default box和第j个ground truth，如果二者匹配则 $x_{ij}=1$ 反之亦然，c表示预测的置信度，l表示预测的位置，g表示真实的位置。 $\alpha$ 这里为1，N为与ground truth匹配的default boxes的总数， $L_{loc}$ 为L1 loss， $L_{conf}$ 为2值得softmax分类。

文章还有加了CRNN组成的end to end等等实验，可以观看原文。

TextBoxes++

《TextBoxes++: A Single-Shot Oriented Scene Text
Detector》发表于AAAI2018
github地址：https://github.com/MhLiao/TextBoxes_plusplus

从名字就可以看出，该文章是上面TextBoxes的一个扩展，扩展在TextBoxes只可以检测水平文本，而TextBoxes++可以检测多角度的文本，但该方法也是基于SSD结构且是针对词来检测的（word-based）。

一、网络结构

不同于TextBoxes，为了更好的对多角度文本进行检测，文章做了三个改动，一是改了default box的宽高比，使用1、2、3、5、1/2、1/3、1/5;二是将1*5的卷积核改为3*5用来生成text box layers，三是网络的输出不同（这点会在ground truth中介绍）。框架与TextBoxes是一样的，如下图所示。

图3.png

类似于TextBoxes，因为使用的是细长形的default boxes，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。

图4.png

二、网络的输出及ground truth的表示

网络输出
网络的输出是为了适应多角度的文本而相对于SSD和TextBoxes做了一些更改。网络输出一系列的多角度文本框使用{q}或者{r}集合表示，同时输出对应与多角度文本框的最小外界水平矩形框使用{b}集合表示。

多角度文本框是通过default box回归得到的，如下图表示，图中绿色虚线表示与ground truth匹配的default box，黄色框表示ground truth，红色箭头表示回归的方向，黑色框表示未匹配到真值的default box，绿色实线框表示对应与ground truth的最小外界水平矩形框。

图5.png

default box可以用公式表示为 $b_{0}=(x_{0}, y_{0}, w_{0}, h_{0})$ ，回归出来的多角度文本框有两种表示方式，一种是使用四个点表示 $q_{0}=(x^{q}_{01},y^{q}_{01},x^{q}_{02},y^{q}_{02},x^{q}_{03},y^{q}_{03},x^{q}_{04},y^{q}_{04})$ ，另一种是使用四边形的左上点、右上点和旋转矩形的高表示 $r_{0}=(x^{r}_{01},y^{r}_{01},x^{r}_{02},y^{r}_{02},h^{r}_{0})$ ，其中 $(x_{0}, y_{0})$ 表示default box的中心点， $w_{0}$ 和 $h_{0}$ 表示default box的宽和高。上述各个参数间的关系如下列公式表示：
$x^{q}_{01}=x_{0}-w_{0}/2,y^{q}_{01}=y_{0}-h_{0}/2,$
$x^{q}_{02}=x_{0}+w_{0}/2,y^{q}_{02}=y_{0}-h_{0}/2,$
$x^{q}_{03}=x_{0}+w_{0}/2,y^{q}_{03}=y_{0}+h_{0}/2,$
$x^{q}_{04}=x_{0}-w_{0}/2,y^{q}_{04}=y_{0}+h_{0}/2,$
$x^{r}_{01}=x_{0}-w_{0}/2,y^{r}_{01}=y_{0}-h_{0}/2,$
$x^{r}_{02}=x_{0}+w_{0}/2,y^{r}_{02}=y_{0}-h_{0}/2,$
$h^{r}_{0}=h_{0}.$

与SSD做法一样，不是直接输出文本检测框的坐标而是输出回归的信息。
对于使用四点坐标表示文本框的表示方法来说，网络输出的是 $(\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_{1},\Delta y_{1},\Delta x_{2},\Delta y_{2},\Delta x_{3},\Delta y_{3},\Delta x_{4},\Delta y_{4},c)$ ，最终输出的水平矩形 $b=(x,y,w,h)$ 和文本框 $q=(x^{q}_{1},y^{q}_{1},x^{q}_{2},y^{q}_{2},x^{q}_{3},y^{q}_{3},x^{q}_{4},y^{q}_{4})$ 计算方式如下所示，c表示置信度：
$x=x_{0}+w_{0}\Delta x,$
$y=y_{0}+h_{0}\Delta y,$
$w=w_{0}exp(\Delta w),$
$h=h_{0}exp(\Delta h),$
$x^{q}_{n}=x^{q}_{0n}+w_{0}\Delta x^{q}_{n},n=1,2,3,4$
$y^{q}_{n}=y^{q}_{0n}+h_{0}\Delta y^{q}_{n},n=1,2,3,4$

上面是对于输出检测文本框使用四点坐标表示的，如果采用的是第二种方式表示（旋转矩形），则网络输出为 $(\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_{1},\Delta y_{1},\Delta x_{2},\Delta y_{2},\Delta h^{r},c)$ ，对于最终输出 $r=(x^{r}_{1},y^{r}_{1},x^{r}_{2},y^{r}_{2},h^{r})$ 计算方法为：
$x^{r}_{n}=x^{r}_{0n}+w_{0}\Delta x^{r}_{n},n=1,2$
$y^{r}_{n}=y^{r}_{0n}+h_{0}\Delta y^{r}_{n},n=1,2$
$h^{r}=h^{r}_{0}exp(\Delta h_{r}).$