显著性目标检测(识别图像的主体,本质是一种分割任务。先算
显著图
,再合并分割显著对象
)
2014前,基于手工特征的传统方法:无法描述复杂场景、对象结构;泛化能力差。
基于深度学习的方法:
1)多层感知机(MLPs)/传统CNNs
输入图像被过度成多尺度的小区域,然后将CNN用于提取图像中的高级特征,该高级特征随后被反馈回MLP以确定每个小区域的显着性值。
虽用CNN提取高级特征,但由于MLP的使用,CNN所提取的特征中的空间信息并不能被保留。
结合局部信息和全局信息
,来克服基于局部的模型中突出对象边界
,而不突出对象整体
。
[7] 两个子网络DNN-L、DNN-G
[8] 全局与局部上下文,以超像素为中心的窗口
本文模型将嵌套窗口中提取的多尺度CNN特征
与具有多个全连接层
的深度神经网络结合。(将输入图像分为考虑区域,紧邻区域以及全图三个区域,对分割出的三个不同图像使用相同的CNNs
进行特征提取,而后进行整合)
上述基于MLP的模型,主要依赖于区域信息和分类网络。这些图像块区域被调整到固定大小
,然后被送到分类网络,该网络用于确定每个区域的显着性。 虽然一些模型使用多尺度输入来提取多个尺度的特征,但是这种学习框架无法充分利用高级语义信息
。此外,空间信息
不能传播到最后完全连接的层,从而导致全局信息丢失。
2)全卷积网络(FCN)
具有保存空间信息的能力。
论文:Visual Saliency Detection Based on Multiscale Deep CNN Features
年份:TIP 2016
期刊:G.-B. Li, Y.-Z. Yu. IEEE Transactions on Image Processing, Nov, 2016, pp. 5012-5024.
初版:Visual Saliency Based on Multiscale Deep Features,
年份:CVPR 2015
作者:同期刊(香港大学)
(https://sites.google.com/site/ligb86/mdfsaliency/)
CVPR 2015(Multiscale Deep Features,MDF)
-
Results
Figure 1:不同方法显著图的视觉比较
显著图的视觉比较:
(a)Source,(k)Ours MDF,(L)GT:ground truth,(b-j)其他9种方法
?二值gt的标签合理吗
-
定量比较
Figure 2:在对10种不同方法的显著性图进行定量比较
4个数据集上:(a)MSRA-B数据集,(b)SOD数据集,(c)iCoSeg数据集,(d)本文的数据集
(第一行)不同方法的PR曲线(精度召回precision-recall),
(第二行)使用自适应阈值的平均精度、召回和F-测量(precision, recall and F-measure),
(第三行)平均绝对误差(Mean Absolute Error)
- 贡献
1、model:提出新的显著性模型MDF(Multiscale Deep Features)
2、framework:进一步将显著性模型(ours)、空间一致性模型、多层次图像分割相结合,形成完整的显著性框架
3、datasets:HKU-IS
TIP 2016
概述
- 提出思路:用CNN提的多尺度特征 学习出高质量的显著性模型。已成功应用于视觉识别任务中
- 提出网络结构:
在CNNs的顶层加入全连接层,用于3种不同尺度的特征提取。
Deep Contrast Feature(深度对比度特征),位于网络的倒数第二层,是一个用于显著性检测的有判别力的高级特征向量
将人工设计的底层特征与Deep Contrast Feature结合,得到更健壮的特征。 - 发布了视觉显著性的数据集:4447图像及其像素显著性注释
1、介绍
- 贡献:
1、提出新的视觉显著性模型,将(从嵌套窗口中提取的)多尺度CNN特征与(有多个全连接层的)深度网络相结合。
用带标记的一组显著图中的多个区域来训练用于显著性估计的深层网络。(TODO:???)
网络的倒数第二层DCF,可看作是一个用于显著性检测的有区分度的高级特征向量,当与手工低级特征结合时,可进一步提高显著性性能。
2、通过进一步将(图像的多级分割上的)聚集显著性图与(基于全连接CRF的)空间一致性模型进行结合,开发了一个完整的显著性框架。
(conditional random field (CRF) framework,条件随机场)
(a)source image,
(b)ground truth,
(c)our saliency map,
(d-h)saliency maps of other five latest methods, including SF[13], DRFI[14], HS[15], RC[16], and MR[17].
TODO:其他相关方法的简要介绍
。。。
3、具有深度特征的显著性推理(saliency inference with deep features)
如图,模型由1个输出层和(3个CNNs上的)2个全连接的隐藏层组成。(TODO:???)
- 具体流程:
将1张输入图像分解为一组非重叠区域(nonoverlapping regions),每个region内部具有几乎一致的显著值。(TODO:region size一致吗???)
3个CNNs负责多尺度特征提取。
每个region都从三个嵌套且逐渐增大的矩形窗口(该region的边界框、其近邻regions的边界框和整个图像)中自动提取特征。(TODO:近邻regions的边界框???)
CNNs中提取的特征被输入到2个全连接层,每层有300个神经元。
全连接层的输出送到输出层,输出层进行回归,得到该region的显著概率。
在生成(输入图像的)显著图时,我们在图像的每个region上逐个运行训练好的显著性模型,以生成该region的显著性得分。该显著性得分进一步转移到该区域内的所有像素(pixels)。
当倒数第二层的输出作为深度对比度特征(DCF)时,可以将其与手工底层特征concatenate串联起来,进一步提高显著性检测的性能。
a)多尺度特征提取
用预训练后细调的CNNs比手工特征好得多。
用所有ImageNet训练图像中相同位置的平均像素值 填充区域外但仍在其边界框内的像素点。这些填充像素值在平均减法后变为零,对后续结果没有任何影响。
将边界框中的区域 扭曲为227x227像素的正方形RGB图像区域,并馈送给CNNs,并通过CNNs向前传播 平均减去后的输入图像区域 来获得4096维特征向量,命名为特征A。特征A不包括所考虑的图像区域周围的任何信息,因此不能判断该区域相对于其邻域以及图像的其余部分是否显著。
为了包含所考虑区域周围区域的特征以理解其邻域中的对比度,我们从矩形邻域,即所考虑区域及其相邻区域的边界框。此边界框中的所有像素值保持不变。同样,这个矩形的邻域在被扭曲后被传送到了CNN。我们把CNN特征的结果向量称为特征B。
在显著性计算中,一个非常重要的线索是区域相对于图像其余部分
的(颜色和内容)唯一性程度。
而图像区域在整个图像中的位置
是另一个重要的提示。因此,我们使用CNN从整个矩形图像中提取特征C。
称之为S-3CNN。
b)网络训练
S-3CNN包含了12288个深部特征的三部分。在S-3CNN的基础上,我们训练了一个具有1个输出层
和2个全连接的隐层
的网络。该网络起到回归器的作用,从图像区域提取的多尺度CNN特征中推断出每个图像区域的显著性得分。具有全连接隐层的网络可达到非常高的回归精度。
将串联的多尺度CNN特征输入到该网络中,该网络使用一组训练图像及其标记的显著性图进行训练,这些图像具有逐像素的二值显著性标记。在训练之前,首先将每个训练图像分解为一组区域。利用逐像素显著性标签进一步估计每个图像区域的显著性标签。在训练阶段,仅选取具有相同显著性标签
的70%或70%以上像素的区域作为训练样本,并将其显著性得分分别设置为1或0。在训练过程中,输出层和完全连接的隐藏层一起最小化所有训练图像中所有区域累积的最小二乘预测误差。
c)Deep Contrast Feature(DCF)
网络倒数第二层的输出 > DCF
4、完整算法
a)多级图像分解
在我们的早期版本[1]中,为了生成更精确的分割,区域合并通过两个相邻区域共享的边界像素处的边缘强度来确定优先级,并且边缘强度由[45]中提出的超等高线图(UCM)确定。2004.
然而,计算UCM是一个耗时的过程,但并不能明显提高最终显著图的精度。
在本文中,我们简单地应用了文献[44]中基于图的分割算法,使用不同的参数设置来生成15级的分割。最细层和最粗层的目标区域的个数分别控制在300和20左右,中间层的区域数遵循几何级数。
我们训练了一个统一的模型,基于这15个分割层次上的所有区域,而不是针对每个分割层次的单一模型。
b)混合深度-手工特征,HDHF: Hybrid Deep and Handcrafted Feature
如第III-C节所述,我们训练的神经网络的初始显著图
可以被视为特征DCF
的回归结果。
如图3所示,将手工特征与DCF的结合,始终优于MDF和LF
MDF:multiscale deep feature,第四行:
(图a和b)DCF特别擅长于在
低对比度、复杂背景
的图像中检测显著区域,只要与它们周围的邻域存在语义区别
。DCF是从多尺度CNN特征(MDF:multiscale deep feature)中衍生出来的,这些特征主要集中在图像的语义上,因此DCF在
低层
属性中可能对比度信息不够
。
如图c所示,当区域由于低级别
属性(例如颜色和纹理)中的对比而显著时,DCF往往比基于手工制作的低级别特征的那些方法执行得更差。
许多例子表明,深度特征和手工低级特征都不足以生成精确的显著性图,我们提出了一组小的互补的低层特征来补偿DCF。HDHF
结论:HDHF始终优于MDF和LF。
对每一层分割中的每个区域R,提取一个包含对比度特征(左)和分割属性(右)的39维低层特征描述子。
将我们提出的300维DCF和这个手工低层特征描述符的l2范数标准化,然后将它们连接成一个339维的混合特征向量,称为混合深度和手工构建特征(HDHF)。
c)基于HDHF的显著性回归训练
随机森林回归
d)显著图融合
聚集显著性图A的公式定义如下:
注意显著性融合有很多选择。例如,文献[46]中采用了条件随机场(CRF)框架来聚合来自不同方法的多个显著性图。然而,我们已经发现,在我们的上下文中,所有显著性图的线性组合已经能够很好地满足我们的目的,并且能够产生聚合图,其质量与从更复杂的技术获得的质量相当。
e)基于CRF的空间相干性研究
由于图像分割的不完全性以及我们的模型将显著性分数分配给各个片段,噪声分数不可避免地出现在上述聚集的显著性图中。
为了增强空间一致性,我们在[47]中使用完全连接的CRF模型进行像素显著性细化。该模型解决了一个二值化的像素标注问题,采用了如下能量函数:
[47]CRF
最小化能量函数。
能量最小化是基于对CRF分布的平均场近似,可以利用高维滤波来加速计算。在本文中,我们使用[47]的公开实现来
最小化能量
,并且在300*400像素的图像上花费不到0.5秒的时间。在能量最小化的最后,我们利用每个像素的后验概率来生成一个显著性图。请注意,除了颜色以外的特征可以在第一项中使用,以提高性能(例如,本文的早期版本[1]中使用了轮廓信息)。目前,我们是为了提高效率而
只使用颜色
,并且发现颜色对于增强空间一致性和去除聚集显著性图中由于分割不完善而产生的噪声显著性分数是足够的。结果是一个增强的显著性地图。如图4所示,我们的初始显著性图通常看起来支离破碎,显著对象的边界没有得到很好的保留。
CRF模型的应用不仅可以得到更为平滑的像素精度的结果,而且可以更好地保留显著物体的边界。CRF模型有效性的定量研究见第VI-D3节。
5、数据集
图像至少满足以下标准之一:
1) 存在多个断开连接的显著对象;
2)突出物体中的接触至少一个图像边界;
3) 背景复杂;
4) 颜色对比度(任何显著物体的颜色直方图与其周围区域之间的最小卡方距离)小于0.7。
标签一致性定义为三个人标记为显著的像素数与其中至少一个人标记为显著的像素数之间的比率。其公式如下:
排除C<0.9者,其余4447例。对于每个通过标签一致性测试的图像,我们从三个人的注释中生成一个地面真实显著性图。地面真值显著性图中的像素显著性标签G={gx | gx2{0,1}},根据三个人中的多数标签确定,如下所示:,
6、实验结果
a)数据集
public benchmarks for salient object detection:
b)实现细节
c)评价标准
- standard precision-recall (PR) and receiver operating characteristic (ROC???) curves评估性能
通过一个阈值,将连续的显著图转换为二值掩码。再将二值掩码与ground truth比较,得到一对精度和召回率。阈值从0到1取值,即可绘制出PR曲线。
PR曲线 > 真正例率(TPR)-假正例率(FPR)> ROC曲线 > AUC曲线(ROC曲线下面积,越大越好)
- standard precision-recall (PR) and receiver operating characteristic (ROC???) curves评估性能
- F值(F-Measure):Precision和Recall加权调和平均:
- F值(F-Measure):Precision和Recall加权调和平均:
其中,为0.3,以保证高精度[5]。
-
实验结果展示了所有精确度-召回率对中的最大F值,还展示了使用[5]提出的图像相关的自适应阈值对每个显著性图进行二值化后的性能。
其中,自适应阈值定义为图像显著值均值的两倍:
其中,W、H为显著图S的宽、高,S(x, y)为像素点(x, y)的显著值。
实验结果展示了使用自适应阈值在不同数据集上的平均精度、召回率和F值。 - PR曲线的局限性:未考虑真负例(TN)的像素。因此采用平均绝对误差(MAE)作为另一个评价标准。
二值ground truth(G)和显著图(S)之间像素点的绝对值之差的均值:
MAE度量了(ground truth与估计的显著图之间的)数值距离,对于评价显著性模型更具意义。
- PR曲线的局限性:未考虑真负例(TN)的像素。因此采用平均绝对误差(MAE)作为另一个评价标准。