近期在阅读南开大学程明明老师的课题组的一些文章,做了些笔记。
摘要:图像分割已经研究了很多年,但还是视觉问题中的一个重要问题。有一些快速的或准确率高的分割算法已经能广泛运用于很多视觉领域,但是,很难设计一种高效和精确的图像分割器。本文,提出了一种新的方法,叫做DEL(深度嵌入学习)能有效地将超像素运用于图像分割。利用SLIC得到的超像素,我们训练了一个FCN网络为每个超像素学习特征嵌入空间。在学到的特征嵌入空间中使用一种相似性度量方式来衡量相邻超像素的相似性。然后将高相似度的超像素归于一个分割类。The evaluation results on BSDS500 and PASCAL Context demon- strate that our approach achieves a good trade- off between efficiency and effectiveness. Specifi- cally, our DEL algorithm can achieve comparable segments when compared with MCG but is much faster than it, i.e. 11.4fps vs. 0.07fps.(效果好)
Introduction
本文的主要目的是解决图像分割的效率和准确率的矛盾。例如,MCG(2017)和gPb(2011)能生成高质量的分割效果,但太慢。而EGB(2004)和HFS(2016)的速度够快,但效果不好。
超像素:超像素属于一种过分割,一般是将紧凑的规则的和固定数目的多个像素归为一个超像素,就是将一张图通过某种方式分割的很细,每一小块就是一个超像素。虽然这和我们要求的分割要求不一样,我们需要的是有语义的分割结果,但超像素能给分割提供一个好的起始条件。本文中运用了SLIC的超像素算法来进行预分割。
2 .Our Approach
2.1 超像素生成
先用SLIC算法来进行超像素图片的生成,SLIC是一种用K平均来做的算法。这里要求每个超像素是有64个正常像素组成,令:对于图片I生成了M个超像素。
2.2 特征嵌入学习
在获得超像素之后,就用一个深度cnn来学习特征嵌入空间。我们在特征嵌入空间中进行池化操作后获得特征向量:
这是一张图的特征向量组,包含M个特征向量。每个的计算方式:
Vi就是把一个超像素内的每个像素的特征向量求平均得到超像素的特征向量。这里设计的特征向量也是有64维(和64个像素组成一个超像素无关)。
dij是相邻超像素的距离,如果vi和vj比较像,那么dij就比较接近1,那就归为一类,如果vi和vj差很大,那么dij就比较接近0,就不归为一类。
然后用这个损失函数来进行反向传播训练。
2.3 网络框架
如图一,是整个算法的框架,image和superpixel两张图,一张原图,另外一张是计算得到的超像素图。图一中间的三个部分就是图2所展示的内容。首先是利用VGG16这个网络(去掉了pool5层和全连接层和其他一些小修改),输入是原始图片,和超像素图无关。然后将5层卷积层都进行3*3,和1*1的卷积,然后为了解决不同层的特征的尺寸不一样的问题,做了L2 norm。再把多层卷积层连接起来,这里浅层的包涵细节信息,深层的包涵整体信息。然后载做一个3*3卷积(256个输出通道)和1*1卷积(64个输出通道),就获得了特征嵌入空间的特征了。然后根据之前算出来的超像素图,运用2.2中讲的方法,将这里的每64个像素构成一个超像素,每个像素有64个输出通道,求得M个特征向量,每个向量64维。然后将这些特征向量带入2.2中的公式,计算loss,结合groundtruth的分割图,做train。
2.4 超像素分割
大概意思就是对于训练得到的网络,对于一张新的图,用这个网络,算到相邻两个超像素的距离,距离最近的就归为一类。最后得到整个的分割结果。
4.总结
本文主要的想法是获得速度和准确率的一个折中。采用了超像素的思想,利用SLIC快速获得超像素,这样在后面的分割中,需要判断地像素总量就少很多,不用单个像素地判断,而是整个超像素进行判断,提高效率。本文的思想还是很有创新的。
代码连接:https://github.com/yun-liu/del.
文章连接:https://jwbian.net/Papers/DEL_IJCAI18.pdf
以上是个人阅读论文笔记,如有错误,希望大家批评指正,谢谢