Paper: Distractor-aware Siamese Networks for Visual Object Tracking.
https://arxiv.org/abs/1808.06048v1
该文章发表于ECCV2018,是对SiamRPN的改进。从上图可以看出,Siamese类方法的问题在于不能很好的区分背景干扰因素,对干扰的响应分数很高。作者认为,SiamRPN跟踪器只学习到了objectness/non-objectness的区分,而对于类属于objectness的干扰无能为力。
作者对原因进行了分析,做出的结论为在跟踪器的训练过程中,训练样本的不均衡造成了跟踪器无法区分objectness级的干扰。而样本的不均衡主要包括两部分:
- 正样本的种类不够,导致模型的泛化性能不够强。作者给出的解决方法是额外加入Detection数据集的图片数据, pair可以由静态图片通过数据增益(translation, resize, grayscale等)生成,加入detection数据生成的正样本之后,模型的泛化性能得到了比较大的提升;
- hard负样本较少,在之前的Siamese跟踪器训练过程中负样本过于简单,很多情况下为无语义背景,这使得模型的判别性不强。作者给出的解决方案为,用不同类之间的样本(还有同类的不同instance)来构建hard负样本,由此增强模型的判别能力。
1. Distractor-aware Training
该文章的改进主要在于训练部分。对训练数据进行了增强,减轻训练样本的不均衡问题。多样化正样本对的种类可以提升泛化性能:作者认为在SiamFC和SiamRPN中使用的训练数据集为 ILSVRC15和Youtube-BB,训练的pair是通过在一个视频序列的不同帧抽取得到的。问题是这两个数据集的目标种类较少,VID为20个类别,Youtube-BB为30个类别,作者认为这些数据集不足以用来训练高质量和泛化性较强的模型,同时作者认为SiamRPN的回归分支在遇到新的类别时会产生较差的预测。于是通过引入新的Detection数据集来扩展正样本对的种类。如上图中的(a),是通过对静止图片使用增强技术的方法来产生pair的。
语义负样本对可以改进判别能力:作者将SiamFC和SiamRPN的低判别性归因于语义负样本对的缺乏,以及类内(intraclass)干扰样本对的缺乏。因此作者对此进行了改进,两种负样本对的生成分别如上图(b)(c)所示,上图(c)生成的样本对能够使得跟踪器在面临out-of-view和全遮挡时不会漂移到其它物体上,上图(b)生成的样本对能够使得跟踪器专注于fine-grained的特征,从而提升判别能力。
2. Distractor-aware Incremental Learning
上一节的训练策略能在离线训练阶段显著的改进模型判别能力,但是仍然很难分辨具有相似属性的两个物体,如上图a。在SiamFC和SiamRPN中使用cosine窗来压制干扰,但是当物体运动混乱时性能不能保证。大部分基于Siamese网络的方法在遭遇快速运动和背景杂波时性能较差。总的来说,潜在的缺陷主要是由于一般表示域和特定目标域的不一致造成的。由此,作者提出一个干扰-感知模块来有效的将一般表示( general representation)转换到特定视频域(video domain)。
Siamese跟踪器学习到的是exemplar图像z和candidate图像x在嵌入空间φ 的相似性度量函数,这里b表示偏置,在每个位置都相等。
作者将目标上下文的hard负样本(distractors)信息加入到了相似性度量函数。在DaSiamRPN中,首先在每一帧选择17x17x5的proposals,采用非极大值抑制(NMS)来消除冗余,然后最高得分的作为跟踪结果,得分大于阈值的proposals作为干扰di,最后收集得到一个干扰集其中h为预定义的阈值,zt为在第t帧中选择的目标且这个集合的数量为n。
作者提出了一个新的干扰-感知目标函数来重排proposals P,这个P为与exemplar最相似的前k个proposals。最终选择的目标表示为q:这种干扰-感知跟踪器可以将现有的相似性度量(general)调整为新领域(specific)的相似性度量。