相关工作
静态图片显著性检测分两类:自顶向下与自底向上。前者需要高级先验知识(眼动点检测),后者则是基于图像基本信息如纹理等。cnn在显著性检测中又可分两类:基于区域的深度特征学习和端对端的基于全连接卷积网络的方法。
视频显著性检测早期直接是对图片显著性检测的扩展,相关工作中有用到手工特征,无法较好处理复杂的视频。最近工作有合并cnn网络到一个时空条件随机场,还有使用第二个fcn网路提升另一个fcn网路产生的显著图的时间相干性。但fcn网络无记忆性,作者可能由此想到使用lstm进行处理。
方法简介
作者提出了一个流引导的循环网路编码器(FGRNE),是一个端到端的视频显著性检测学习框架。它通过利用光流获取运动信息和利用lstm网络进行序列特征变化编码来增强每帧特征间的时间一致性。
Flow Guided Recurrent Neural Encoder
模型架构首先利用FlowNet进行光流特征提取,然后逆序输入K帧至特征提取模型(文中采用了DSS模型)对提取的特征进行修正。最后将修正后的特征给到另一个lstm网络进行时间相干特征编码,最后进行回归分类即得显著性图。
帧间光流映射计算
ROi-j:第i帧到第j帧的映射计算特征修正
W(.)指双线性内插修正,在特征图每个通道空间上进行操作。
时间一致性特征编码
仅有特征修正还不够好,因此再添加一个lstm网络对特征进行时间一致性编码,状态更新方程取最后一个即t=k+1时的隐藏状态作为编码结果。
实验
作者采用了DSS网络作为检测静态显著性图的宿主网路,作者用了整个SegTrack V2与 FBMS 和 DAVIS的训练数据作训练,在FBMS 和 DAVIS的测试集上作测试,并比较了其他一些算法作者对其提出的三个points,进行了缺失研究,并验证了它们的有效性。
总结
从思路上来讲,从显著性图到视频显著性检测增加了时间信息,想到由前人的fcn换为lstm来引导运动特征提取,利用到的他人成果包括宿主网络的特征提取,光流计算,比较新的点是第二个lstm网络来增强时间一致性。
paper:http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/1226.pdf