目标感知深度跟踪

论文地址：https://arxiv.org/abs/1904.01772

作者：Xin Li Chao Ma Baoyuan Wu Zhengyu He Ming-Hsuan Yang

摘要

【现有技术】现有的深度跟踪器主要使用卷积神经网络对通用的对象进行预训练以进行表示。【现有技术存在的问题】尽管许多的视觉任务显示成功，使用预处理的深度特征的视觉跟踪的贡献不如它在物体识别上显著。【提出问题主要出在哪里】关键问题是，在视觉跟踪中，感兴趣的目标可以是任何形式的任何对象对。因此，预训练深度特征在给任意形式的目标建模以将它们与背景区分开来不太有效。【提出解决方案】在本文中，我们提出了一种新的学习目标感知特征的方案，与预训练的深层特征相比，它可以更好地识别出现显着变化的目标。为此，我们开发了regression损失（回归损失）和ranking 损失（排序损失）来指导target-active和scale-sensitive的特征的形成。我们根据回传梯度确定每个卷积滤波器的重要性，并基于表示目标的激活选择目标感知特征。目标感知特征与Siamese 匹配网络集成用于视觉跟踪。【效果如何】大量的实验结果表明，所提出来的算法在精度和速度方面优于现有的最先进的方法。

1. 介绍

【什么是visual tracking】视觉跟踪是计算机视觉的基本问题止一，具有广泛的应用场景。给定在第一帧中由边界框指定的目标对象，视觉跟踪旨在在后续帧中定位目标对象。【挑战在哪里】这是具有挑战性的，因为随着时间的推移，目标对象经常有明显的外观变化，并且可能会暂时离开视野的领域。【传统的视觉跟踪怎么做的】传统的跟踪器在深度学习开展之前主要是由一个特征提取模块和决策机制组成。【最先进的跟踪技术】最近最先进的深度跟踪器通常使用深度模型预处理的对象识别任务来提取特征，同时更注重设计有效的决策莫模块。【这些技术的不足】虽然很多的决策模型，例如，correlation 滤波器，regressors和classifiers，都被广泛地探索，但是较少关注学习更具有判别性的深度特征。

尽管现有的深度跟踪器的最先进的性能，我们注意到使用预处理的深度特征的视觉跟踪的贡献不如它在物体识别上显著。当使用预处理深度特征作为目标表示时，可能会出现许多问题。【列出问题所在】首先，视觉跟踪中的目标可以是任意形式，例如，在预训练模型的训练集中看不到的对象，或一个特定部分，这个部分其中不包含用于对象识别任务的对象信息，也就是说，从通用图像预训练的CNN模块对感兴趣的目标物体是不可知的，并且在分离它的背景上也不是有效的。第二，即使目标对象出现在预训练的模型的训练集中，在最后一个卷积层获取的深度特征通常只保存高精度的视觉信息，这对精准定位和尺寸估计来说是不太有效的。第三，最先进的深度跟踪器需要高计算负荷，因为与训练的深度特征是高维的。（如图一所示）

image.png

图一跟踪精度 vs 在OTB-2015数据集上的速度

水平和垂直的坐标分别对应于跟踪速度和AUC重叠率得分。所提出的算法相对于最新的跟踪器具有良好的性能。

为了缩小这一差距，利用特定于目标对象的深度特征进行视觉跟踪非常重要。为了解决上述问题，【本文提出的解决上述问题的方法】我们提出了Target-Aware Deep Tracking 模型。【motivations】我们的工作基于一下观察：①通过反向传播分类神经网络获得的梯度表表明<u>特定类</u>的显着性很好。②通过使用全局平均池，卷积过滤器生成的梯度可以确定<u>过滤器</u>对于表示目标对象的重要性。【本文如何选择最有效的卷积滤波器】为了选择最有效的卷积滤波器，我们设计了两种类型的客观损失，以便在第一个框架中的预训练深度模型之上执行反向传播。【hinge loss】我们使用hinge loss 来将预训练深度特征回归到由高斯函数生成的软标签，并使用梯度来选择target-active卷积滤波器。【ranking loss】我们使用成对距离的ranking loss来搜索scale-aware的卷积滤波器。选择的最重要的滤波器的激活时这项工作中的target-aware features。【SNE】图二展示了使用SNE方法的目标感知的特征。

image.png

基础特征目标感知特征

(a) 组内目标的分布（行人）

(b) 类间目标的分布

图二：预训练分类CNNs特征和使用t-SNE方法的目标感知，在这个例子中，我们从每个视频随机选择20帧，图中的每个点代表一帧中的一个目标。(a)所有的点属于行人类，但是是在不同的视频中。Target-aware 特征对每个视频的类内差异更加敏感，这对于区分目标与干扰因素至关重要。(b)不同的颜色的点属于不同的对象类别。Target-aware features 可以更有效地分离不同类别的对象，这可以用来

去除无关的过滤器保留target-active过滤器。

[27] Laurens van der Maaten and Geoffrey Hinton. Visualizing data using t-SNE. Journal of machine learning research, 9(Nov):2579–2605, 2008. 2, 3

t-SNE: 高维数据在二维或者三维空间上的数据点位置的可视化表示。

注意到与预训练深度特征相比，在相同语义下，target-aware deep features 在分离不同目标对象方面更有效，which are agnostic of the objectness of the targets.当我们利用一小部分卷积滤波器生成目标感知特征时，特征数量显著地减少，而这可以减少计算量。【Siamese matching network】我们将所提的tagrget-aware features与Siamese matching network集成在一起以进行视觉跟踪。

【Siamese matching network】

Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea Vedaldi, and Philip HS Torr. Fully-convolutional siamese networks for object tracking. In European Conference on Computer Vision Workshops, 2016. 2, 3, 6, 7

我们在五个基准数据集上评估了所提到的跟踪器，包括 OTB-2013 [45], OTB-2015 [46], VOT-2015 [19, 20], VOT-2016 [18], and Temple Color-128 [24]. 大量的消融实验表明，与Siamese跟踪器的预训练模型相比，拟议的target-aware features在准确性和跟踪速度方面更为有效。

【主要贡献】

这项工作的主要贡献概括如下：

l 我们提出学习的target-aware deep features用于视觉跟踪。我们开发了regression loss和ranking loss选择了最有效的卷积滤波器从而生成target-aware features。我们缩小了预训练的深度模型与任意形式的目标对象之间的距离，以进行视觉跟踪。

l 我们整合了target-aware features 和Siamese匹配网络以进行视觉跟踪。具有较少数量特征的target-aware features也可以加快Siamese跟踪器的速度。

l 我们在五个基准数据集上广泛评估了该方法。我们证明了与最新方法相比，所提的Siamese跟踪器和target-aware features在有效性和效率方面，表现良好。

2. 相关工作

视觉跟踪一直是文献中活跃的研究主题。下面，我们主要是讨论，基于梯度的深度模型的代表性深度跟踪器和相关问题。

深度跟踪器 将深度学习模型应用于视觉跟踪的一个值得注意的问题是，训练样本有限，并且在第一帧中只有目标对象的ground truth视觉外观是可用的时才可。一方面，大多数现有的深度跟踪器都使用针对对象分类任务进行预训练的深度模型进行特征表示。[26,42]几个跟踪器利用浅层和深层特征的互补特性来实现鲁棒性和准确性。还集成了多层的深层特征以进行视觉跟踪。但是，由于目标不可见，分辨率不兼容以及尺寸增加等问题，预训练的深度特征的组合可能并不总能带来性能提升，正如Bhat等人所证明的那样。【决策模型】另一方面，通过改进决策模型，开发了许多跟踪器，包括支持向量机，相关滤波器，深度分类器和深度回归器。Nam和Han [29]提出了一个多领域的深度分类器，结合了hard negative mining，边界框回归和用于视觉跟踪的在线样本收集模块。VITAL追踪器[36]利用对抗学习来生成有效样本，并利用cost-sensitve loss类不平衡问题。但是，这些模型可能会在存在噪声更新,并且需要较高的计算负荷的情况下从目标对象中drift出来，这在很大程度上是由有限的在线训练样本引起的。【匹配】为了利用具有一般对象的数据集进行跟踪，许多基于Siamese的跟踪器将跟踪作为匹配问题，并学习了相似性测量网络。通过比较初始目标模板的特征和当前帧中的搜索区域来进行跟踪。【注意力机制】此后，通过引入注意力机制来更好地匹配模板和搜索区域，开发了许多跟踪器[44、52、13]。尽管这些Siamese框架已在大型视频数据集上进行了预训练，但成对训练样本在没有类别信息的情况下仅仅告诉两个样本是否属于同一目标。也就是说，Siamese跟踪器没有充分利用与特定目标对象有关的语义和客观性信息。【在本文中】在这项工作中，我们从经过预先训练的CNN中选择最具区分性和规模敏感性的卷积滤波器，以生成目标感知的深层特征。所提出的功能增强了目标在语义和客观性方面的区分性表示强度，这有助于Siamese跟踪框架在鲁棒性和准确性方面与最新技术方法相比表现良好。

基于梯度的深度模型 开发了几种基于梯度的模型[49，33]，以确定在描述特定对象类时每个通道CNN特征的重要性。GCAM模型[49]通过观察每个输入像素处的梯度表示属于给定类别标签的对应重要性，观察到沿特征通道的加权和，从而生成class-active。特征通道的权重通过该通道中所有梯度的全局平均池计算得出。【我们则不同】与这些使用分类损失的基于梯度的模型不同，我们专门为跟踪任务设计了回归损失和等级损失，以识别哪些卷积滤波器有效地描述了目标并对尺度变化敏感。

3. 目标感知特征

在本节中，我们将介绍【如何学习目标跟踪特征来进行视觉跟踪】。我们首先分析预训练分类深度模型和有效的视觉跟踪的表示的特征之间的差距。然后，根据回归和排序损失之间的差距，我们提出了目标感知特征模型，包括一个判别性特征生成模型和尺度敏感特征生成组件。

3.1 预训练CNNs的特征

【有效的通用视觉识别和特定对象跟踪之间的差距】是由以下问题引起的：
首先，预训练的CNN特征对于目标的语义和目标信息是不可知的，很有可能不出现在离线训练数据中。与其它的视觉任务不同（例如：分类，检测，分割），这些视觉任务的训练和检测的类别预先定义的，一致的，在线视觉跟踪需要处理任何对象标签的目标。
第二，预训练CNN专注于增加类间差异，但提取的深层特征对类内变化不敏感。因此，这些特征对跟踪器准确地估计尺度变化和区分有相同类别标签的distractors的目标来说是不太有效的。
第三，预训练深度特征对每个类别的标签都稀疏地激活（即，类间差异主要与几个特征特征通道相关），尤其是在更深的卷积网络中。当应用于跟踪任务时，只有少数卷积滤波器在描述目标活动的

6 总结

在本文中，我们提出学习target-aware特征，以缩小预训练的分类深度模型与任意形式目标的跟踪之间的差距。我们的主要见解在于，由不同损失引起的梯度表明相应的过滤器在识别目标物体方面的重要性。因此，我们提出通过从预训练的CNN层中选择最有效的过滤器来学习具有回归损失和排名损失的target-aware 深度特征。我们将目标感知特征模型与Siamese集成在一起，并证明了其对视觉跟踪的有效性和效率。总而言之，我们提供了一种解决使用预训练的高维深度特征表示跟踪目标时出现的问题的新颖方法。在五个公共数据集上的大量实验结果表明，该算法相对于最新的跟踪器具有良好的性能。

【论文笔记】target-aware deep tracking