One-Shot Video Object Segmentation 《CVPR》

主要思路

该论文处理半监督的视频目标分割任务，即给定第一帧的mask，将某一特定目标从后续视频帧当中分离出来。作者提出One-Shot Video Object Segmentation (OSVOS)算法，具体流程分为三步：1.采用FCN架构，在ImageNet数据集上进行预训练，学习到通用的语义信息。2.在DAVIS 2016的训练集上进行fine-tune，学习前景分割。3.最后在测试序列的第一帧上fine-tune，学习到在后面帧中要进行分割的某特定目标的外形等信息，然后对后续帧进行分割。（注：前两步为Offline training，最后一步为Online training/testing）

Abstract

本文处理了半监督分割问题，比如给定第一帧的掩码，将对象与视频中的背景分离。本文章提出了One-Shot Video Object Segmentation基于全卷积网络架构，能够连续地将在ImageNet上学习的通用语义信息转移到前景分割的任务，最后学习测试序列的单个注释对象的外观（因此一次性）。虽然所有帧都是独立处理的，但结果在时间上是连贯的和稳定的。我们在两个带注释的视频分割数据库上进行实验，这些数据库显示OSVOS速度快，并且显着提高了现有技术水平。

Introduction

From PreTrained Networks to OneShot Video Object Segmentation

CNN最近也应用到了图像分割，深度体系结构预先训练了弱相关的图像分类任务在ImageNet上。但是深度网络有一个缺点，就是需要大量的训练数据，本文研究了在整个视频中分割对象，当我们只有一个标记的训练示例时，例如第一帧。
本文的贡献
第一个贡献是：使CNN适应于给定物体的一个标注图片场景，我们将在图像识别上预训练的CNN使其适应视频对象分割。这是通过在一组手动分割对象的视频上进行训练来实现的。最后，它在测试时针对在单个帧中手动分割的特定对象进行微调。我们的建议符合这样的观点，即利用这些不同层次的信息进行对象分割是合乎情理的：从大量类别的通用语义信息，通过对象通常形状的知识，到具体的我们感兴趣分割特定对象的属性。
第二个贡献是：OSVOS独立处理视频的每个帧，获得作为副产品的时间一致性，而不是明确强加的昂贵约束的结果。换言之，我们将视频对象分割看作给定来自一个（或各种）手动分割帧的对象模型的每帧分割问题。这与主要方法形成对比，其中时间一致性起中心作用，假设对象在一帧与下一帧之间变化不大。当这些约束不适用时就会失败，无法从相对常见的情况下恢复，例如模糊和突然运动。
深度学习将被展示为提供足够精确的目标对象模型，即使在独立处理每个帧时也能产生时间上稳定的结果；OSVOS能够通过遮挡来分割对象，它不限于特定的运动范围，它不需要顺序地处理帧，并且误差不会在时间上传播。
第三个贡献是：OSVOS可以在时间和精度上达到平衡.实验表明，OSVOS每帧可达181ms，准确率为71.5%，在7.83s内处理每帧可达79.7%。实验表明，随着监督程度的提高，结果确实逐渐提高，每序列两个带注释的帧达到84.6%的突出水平，四个带注释的帧达到86.9%，一个带注释的帧达到79.8%。
OSVOS显着提高了现有技术水平79.8％和68.0％。我们的技术能够在102毫秒内处理一帧DAVIS（480x854像素）。通过提高监督水平，OSVOS可以进一步将其结果提高到86.9％，每个序列只有四个注释帧，从而提供了一个大大加速的工具.
先在 ImageNet 训练一个图像分类模型，得到的网络称之为 Base Network，接着我们在 DAVIS 训练一个分割网络，得到 Parent Network，最后我们在目标视频上微调，得到 Test Network。前两个网络的训练都是 offline，最后一个网络的训练是 online

Related Works

Video Object Segmentation and Tracking

当前大多数半监督视频对象分割都强调时间连续性，通过前一帧的掩码预测下一帧的掩码。OSVOS是一种更简单的流水线，它独立分割每个帧，并且产生更精确的结果，同时还显著地更快。相比之下，我们的CNN从第1帧学习单个模型，并从该模型中分割其余帧。

FCNs for Segmentation

许多当前性能最佳的方法都有一个共同的深层架构，通常在ImageNet上进行预训练，端到端可训练。FCN通过去除参数密集的全连接的层，可训练参数的数量显着下降，便于用相对较少的标记数据进行训练。在本文中，我们探讨如何训练一个基于有限注释的FCN来精确定位稠密预测：单一分段框架。

One-Shot Deep Learning

如果要在一张图片中检测一个具体的物体，对于人来说，少量的信息也是足够的，即使在外形、形状、场景发生改变，也不难分辨。因为我们有很强的先验，首先，这是一个物体，然后这是一个特定的物体。本文的方法就是基于这个思想。本文训练FCN来进行前景和背景的分割。首先在大量数据进行训练，区别出一个前景物体和其它，在测试阶段，用少量数据迭代调整网络来分割出我们要检测出的物体。

End to end trainable foreground FCN

我们想要CNN架构满足以下条件
1. 准确地定位分割输出
2. 从有限数量的注释数据中训练的参数数量相对较少
3. 测试时间相对较快。
它基于VGG网络，经过修改，可实现精确的局部密集预测;去除分类所需的完全连接的层，并且执行有效的图像到图像推断;VGG体系结构由卷积加整流线性单元（Relu）层组成，这些层分为5个阶段。在阶段之间，池操作缩小特征图，因为我们深入网络。我们连接卷积层，以形成独立的跳跃路径从每个阶段的最后一层;只要需要，就进行上采样操作，并将来自不同路径的特征映射连接起来，以构建具有不同详细级别的信息。我们将特征映射线性融合到与图像具有相同尺寸的单个输出。
使用不平衡类别的分割损失函数：

Training details

Offline training:因此，我们进一步训练网络在DAVIS训练集的二进制掩码上，学习如何从背景中分割对象的一般概念和它们的通常形状，我们使用随机梯度下降（SGD）与动量0.9的50000次迭代。我们通过镜像和缩放来增强数据。学习率设置为10e-8，并逐渐降低。在离线训练之后，网络学习从背景中分割前景对象，我们把这个网络称为“父网络”。
Online training/testing:在给定图像和第一帧的分割的情况下，对视频中的特定实体进行分割。我们继续进一步训练（微调）特定图像/掩码对的父网络，然后使用新权重测试整个序列。因此，我们的方法的时间受到两次影响：微调时间（每个带注释的掩码一次）和所有帧的分割（每帧一次）。我们允许该技术学习的迭代越多，结果越好，但用户必须等待结果的时间越长。后者不依赖于训练时间：OSVOS能够在102 ms内对每个480p帧（480 x 854）进行分割。
关于微调时间，我们提出了两种不同的模式：一种是需要在线微调，通过分割帧并在整个序列中等待结果，或者离线，可以预先访问要分割的对象。特别是在前一种模式中，需要控制专用于训练的时间量：分配用于微调的时间越多，用户等待的越多，结果越好。消融分析表明，离线和在线训练对于良好的性能都是至关重要的：如果我们直接从ImageNet模型执行在线训练，那么性能会显著下降。只针对特定对象放弃在线训练也会产生更糟糕的表现。

Contour snapping

首先，我们建议使用快速双边求解器（FBS）将背景预测捕捉到图像边缘。它在五维颜色位置空间中执行高斯平滑，这导致输入信号的平滑（前景分割），从而保留图像的边缘。它在实践中是有用的，因为它速度快（每帧60ms），而且是可微的，因此可以包括在端到端的可训练的深度学习体系结构中。然而，这种方法的缺点是它保留了原始的图像梯度，即在颜色通道中具有高欧几里德差异的像素。
为了克服这个限制，我们的第二种方法将结果捕捉到学习轮廓而不是简单的图像梯度。为此，我们在第二个分支中提出了一个互补的CNN，它被训练成检测物体轮廓。所提出的架构如图4所示：（1）显示了主前景分支，其中估计了前景像素; （2）显示轮廓分支，它检测场景中的所有轮廓（不仅是前景对象的轮廓）。这使得我们可以离线训练，而不需要在网上具体调整示例。我们在两个分支中使用了完全相同的体系结构，但对不同的损失进行了训练。我们注意到，为两个任务联合训练具有共享层的网络会降低获得的结果，因此我们保持两个目标的计算不相关。这使得我们只离线训练轮廓分支，因此不影响在线定时。由于轮廓需要高召回率，我们在PASCAL-Context数据库上进行训练，该数据库为图像的完整场景提供轮廓注释。最后，在边界捕捉步骤（图4（3）中，我们通过超参数轮廓图（UCM）计算与计算轮廓对齐的超像素，设置较低的阈值。然后得到前景掩码，并且我们通过多数投票（与前景掩模重叠超过50％）选择超像素以形成最终的前景分割。

Experimental Validation

评价指标：J是区域重合判断标准（掩码 M 和真值 G 之间的 Intersection over Union。），F是轮廓重合判断标准（将掩码看成一系列闭合轮廓的集合，并计算基于轮廓的 F 度量，即准确率和召回率的函数），T是时间稳定性。
我们添加了两个信息边界：通过从两种最先进的技术（COB和MCC中选择最佳分割对象建议，以及通过从COB中选择最佳超像素.边界捕捉主要减少假阳性，即靠近边界的假阳性（更精确的轮廓）和远离目标的假阳性检测，因为它们不与训练好的一般轮廓对齐。
Number of training images ：我们的结论是，通过仅使用~200个带注释的帧，我们能够达到几乎与使用全DAVIS列分割时相同的性能，因此训练过程不需要全视频注释。
Refinement of results:：我们的技术的另一个优点是，我们可以自然地将更多的监督以更多的注释帧的形式。

Conclusions

深度学习方法通常需要大量的训练数据才能解决特定问题，例如在视频中分割对象。相比之下，人类观察者只需一个训练样例即可解决类似的挑战。在本文中，我们证明了可以在机器中重现这种一次性学习的能力：基于在通用数据集上预先训练的网络架构，我们提出了一次性视频对象分割（OSVOS）作为一种精细的方法 - 仅在一个训练样本上调整它，然后在DAVIS上以11.8分的优于现有技术。有趣的是，我们的方法不需要使用光流算法或时间平滑对时间一致性进行显式建模，因此不会受到随时间的误差传播（漂移）的影响。相反，OSVOS独立处理视频的每个帧，并产生高度准确和时间上一致的分割。