PixelLink: Detecting Scene Text via Instance Segmentation算法详解

PixelLink: Detecting Scene Text via Instance Segmentation,该文章发表在AAAI2018上,代码地址:https://github.com/ZJULearning/pixel_link

该篇文章灵感来自于图像分割算法和之前CVPR2017的SegLink,看过SegLinkEAST这两篇文章的话,这篇文章其实很容易理解。

在介绍文章思想之前先介绍一下作者做这个工作的想法,作者认为有些方法比如EAST,采用了框的回归又结合了图像分割(EAST中提取到的score map就是分割结构),实际上图像分割已经能给出文本的位置了,没有必要使用框进行回归,所以文章只使用了分割的方法没有采用框回归进行文本定位。但是文字检测不同于图像分割,文字检查要的定位更为的精确,仅仅采用分割的方法不能精确的将距离近的文本很好的定位,所以采用SegLink中link的思想,在预测中不仅预测出哪些像素是否为文本,还要预测出是文本的像素他们之间是否能连接在一起组成一个好的文本框(比如,有两个像素都被检查成文本像素,但是他们是两个文本框的像素,他们之间的link的概率会较小),从而输出更为精确的检查区域。

看懂上面这段思想后,下面内容就很好理解了。大致流程如下图所示


图1.png

一、网络结构

文中网络的backbone采用的是VGG16,并将最后两层全连接层改为卷积层,结构采用的是FCN的结构,文章尝试了两种feature map的融合结构,分别取{conv2_2, conv3_3, conv4_3, conv5_3, fc_7(这里其实是第七层卷积层)}进行融合和取{conv3_3, conv4_3, conv5_3, fc_7(第七层卷积层)}进行融合。输入为图片,输出为18通道的结果,其中2通道表示预测的每个像素是否为文本,16通道表示每个像素与它八个邻域是否需要连接的概率图。
网络结构如下图所示(图中的fc6和fc7为卷积层),图中的加号就是feature map相加。


图2.png

在得到上述的18个通道后,先是使用了两个阈值分别对像素预测结果和link预测的结果进行过滤,然后对于预测为正样本的像素结合link通道的预测结果将所有像素连接起来(因为两个像素有两个link,这里连接的规则是,如果有一个link达到阈值,则将这两个像素连接起来),这样就能得到文本检测的区域,最后使用OpenCV中的minAreaRect(该函数是输出包围点集的最小矩形,该矩形可以是旋转的)。这样就可以输出一些列的文本框了,但是文章为了防止一些噪声的影响,将检查结果中短边小于10或者面积小于300的文本框进行滤除,从而得到最终的文本检查结果。

二、标签(Ground Truth)的生成

标签的生成比较简单,在文本框里的像素为正样本,如果有文本框重叠的问题,重叠区域为负样本。link的标签也很容易理解,如果两个像素来自同一个文本框那么他们之间的link为正样本,其他为负样本。要注意的是,这里groundtruth的大小不是图像大小,具体大小与网络输出大小有关,也就是和网络的输出为同一大小。

三、损失函数的定义

损失函数定义如下
L=\lambda L_{pixel} + L_{link}
因为link的结果是基于正样本的pixel来计算的,所以\lambda这里设置为2.0。

像素的损失计算
因为图像中的文字区域有大有小,如果所有像素的权重是一样的,这样做对小的文字不公平,会导致训练结果效果不好。对此不同的文字区域中的像素的权重是不一样的,具体设置方法如下。
假设一张给定的图像中有N个文本框,那么每个文本框的权重都相等且都设为B_{i}B_{i}的计算方法如下
B_{i}=\frac{S}{N}, S=\sum^{N}_{i}S_{i}, \forall_{i}\in {1,\cdots,N}
其中,对于第i个文本框来说S_{i}=area,那么该框里面每个像素的权重都设为w_{i}=\frac{B_{i}}{S_{i}}

按照上述规则正样本中的像素权重就可以确定了,而且小文本框权重更大,反之亦然。之后采用Online Hard Example Ming(OHEM)选出的负样本中像素的权重都设为1。

通过上述两个规则就可以得到一个权重矩阵W,下结合这个矩阵就可以计算出L_{pixel},计算方法如下
L_{pixel}=\frac{1}{(1+r)S}WL_{pixel_CE}
其中L_{pixel_CE}是通过交叉熵(Cross-Entropy)损失函数求得像素是否为文本的损失函数矩阵。

连接的损失计算
连接预测的损失是按照link是否为正负样本分开计算的,而且只计算像素为正样本的连接。计算方法如下:
L_{link\_pos}=W_{pos\_link}L_{link\_CE}
L_{link\_neg}=W_{neg\_link}L_{link\_CE}
其中,L_{link\_CE}是对link的交叉熵损失计算矩阵。W_{pos\_link}W_{neg\_link}是link的权重,它们的计算方式如下所示
W_{pos\_link}(i, j, k)=W(i, j)*(Y_{link}(i, j, k)==1)
W_{neg_link}(i, j, k)=W(i, j)*(Y_{link}(i, j, k)==0)
其中,W就是在像素损失计算中介绍的像素的权重,k表示与像素(i,j)相邻的第k个像素,Y_{link}表示link的标签值。

最后连接的损失计算如下式所示
L_{link}=\frac{L_{link\_pos}}{rsum(W_{pos\_link})}+\frac{L_{link_neg}}{rsum(W_{neg\_link})}
其中rsum表示reduce sum。

到这里PixelLink算法基本介绍完了。

中文本定位与识别的评测方法

欢迎加入OCR交流群:785515057(此群已满)
欢迎加入OCR交流群2:826714963

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容