开篇:揭示多目标追踪中的长尾分布问题
在多目标追踪(MOT)的研究领域,长尾分布问题是一个不容忽视的挑战。这一问题源于不同行人在MOT数据集中轨迹长度的显著不平衡,即一些行人在视频序列中出现的帧数远多于其他行人。这种现象,我们称之为“行人轨迹长尾分布”。这种分布不平衡导致了网络在训练时对于出现频率较高的头部类别过度学习,而忽略了尾部类别,从而影响了模型对于所有目标的追踪性能。
为了解决这一问题,本研究提出了一系列策略,包括两种数据增强策略——静态相机视角数据增强(SVA)和动态相机视角数据增强(DVA),以及用于Re-ID的群组Softmax(GS)模块。SVA策略通过回溯和预测尾部类别行人的轨迹来增加数据量,而DVA策略则通过扩散模型改变场景背景,提高网络对行人特征区域的关注。GS模块则将行人划分为不相关的组,并对每个组分别进行softmax操作。这些策略可以集成到现有的多种追踪系统中,并且通过大量实验验证了我们方法在减少长尾分布对多目标追踪性能影响方面的有效性。
论文标题:Delving into the Trajectory Long-tail Distribution for Muti-object Tracking
项目地址:https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!
长尾分布的影响:对多目标追踪性能的负面影响
在多目标追踪(MOT)的研究中,长尾分布是一个显著的问题,尤其是在追踪数据的分布模式中。长尾分布问题在现有的MOT数据集中表现为轨迹长度的显著不平衡,这种现象我们称之为“行人轨迹长尾分布”。具体来说,一些行人在图像中停留时间长,而另一些行人则快速穿过图像。这导致网络在学习特征时对于出现时间较短的行人学习不足,进而影响了长尾分布数据上的网络性能。
长尾分布数据集的一个常见问题是,网络在长尾分布数据上的训练往往导致偏向于学习数量较多的头部类别的特征,而忽略了表示较少的尾部类别。这种偏差会导致网络在Re-ID分支上的性能下降,因为大多数Re-ID算法将Re-ID视为一个分类问题,并使用softmax模块来计算分类概率。然而,softmax模块存在一个巨大的缺陷:数量较多的类别的权重变得更大,而数量较少的类别的权重变得更小,这会加剧长尾分布数据上长尾分布效应的影响。
解决策略:SVA与DVA数据增强方法介绍
1. 静态相机视角数据增强(SVA)的设计与实现
针对静态相机视角下捕获的多目标追踪数据,我们提出了专为多目标追踪任务设计的静态相机视角数据增强(SVA)策略。SVA策略包括回溯延续和预测延续两种技术。回溯延续应用于训练序列数据中间帧的尾部类别行人,而预测延续则用于训练序列数据最后一帧的尾部类别行人。通过这种策略,可以促进网络对尾部类别行人轨迹的学习。
2. 动态相机视角数据增强(DVA)的策略与步骤
对于动态相机视角下捕获的数据,我们提出了动态相机视角数据增强(DVA)策略。DVA策略包括四个主要步骤:图像分割、图像修复、图像扩散和图像合并。该策略旨在通过改变场景背景的风格,提高网络对行人区域特征的关注。具体来说,首先使用图像分割算法SAM将输入图像中的行人分离出来,然后应用图像修复算法Navier-Stokes对去除行人的图像进行修复,接着使用稳定扩散(Stable Diffusion)处理修复后的图像,最后将分割得到的只包含行人区域的图像与扩散后的图像合并,生成最终的输出图像。通过这种方法,可以增强网络对行人特征的学习,从而提高长尾分布数据上的多目标追踪性能。
Re-ID模块的改进:Group Softmax (GS) 模块
在多目标跟踪(MOT)中,Re-ID(重新识别)模块的作用是至关重要的,它负责识别和区分视频序列中的不同行人。然而,传统的Re-ID方法通常将问题视为一个分类问题,并使用softmax模块来计算分类概率。这种方法存在一个明显的缺陷:对于长尾分布数据,头部类别(出现频率高的类别)的权重会变得更大,而尾部类别(出现频率低的类别)的权重则会变得更小,这加剧了长尾分布的影响。
为了解决这一问题,我们提出了Group Softmax (GS) 模块。GS模块的核心思想是将行人根据他们在训练数据集中的数量分成若干个不相关的组,并对每个组分别执行softmax操作。这样,数量相似的行人类别可以在同一组内进行竞争,从而避免了尾部类别的权重被头部类别的权重所压制。具体来说,我们将训练数据集中的M个行人类别根据它们在训练数据集中的数量分成K个不同的组,然后对每个组分别应用softmax处理,并使用交叉熵损失来计算组损失。最后,我们计算组损失的平均值作为Re-ID损失。
1. 分组规则
我们根据行人在训练数据集中的数量来划分组别,具体的分组公式如下:对于从1到M的每个i值,从1到K的每个j值,N(i)是训练数据集中第i个行人类别的数量,T_l_j是第j组的最低数量阈值,T_h_j是第j组的最高数量阈值,M代表行人类别的数量,K代表组的数量。
2. 组内softmax处理和损失计算
为了确保每个行人类别只被分配到一个组,并保持组的有序性,我们规定第j+1组的最低数量阈值等于第j组的最高数量阈值。我们对每个组分别进行softmax处理,并使用交叉熵损失来计算组损失。然后,我们计算组损失的平均值作为Re-ID损失,公式如下:LossRe-ID表示Re-ID损失,K表示组的数量,j表示组的索引,G_j表示第j组,y_i表示G_j中的标签,p_i表示G_j中的概率。
通过这种方式,GS模块能够有效地提高网络对尾部类别外观特征的提取能力,从而改善长尾分布对多目标跟踪性能的影响。
实验设置:数据集和评价指标
1. 数据集
我们在四个公共MOT基准数据集上进行了广泛的实验,即MOT15、MOT16、MOT17和MOT20。MOT15包含22个序列,其中11个用于训练,另外11个用于测试,包括11286帧。MOT16包含14个序列,7个用于训练,另外7个用于测试,包括11235帧。MOT17在MOT16的基础上增加了三个检测器的检测边界框,即DPM、SDP和Faster-RCNN。MOT20包含8个序列,4个用于训练,另外4个用于测试,包括13410帧,在某些帧中同时包含超过200个行人。
2. 评价指标
为了评估我们的方法,我们使用了CLEAR指标,包括多目标跟踪准确度(MOTA)、ID F1分数(IDF1)、高阶跟踪准确度(HOTA)、大部分跟踪率(MT)、大部分丢失率(ML)和身份切换次数(IDS)。MOTA、IDF1和HOTA是三个重要的综合评价指标。MOTA关注检测性能,IDF1关注关联性能。与它们相比,HOTA平衡了检测性能和关联性能。
实验结果与分析:验证所提方法的有效性
1. 数据集和评估指标
实验在四个公开的MOT基准数据集上进行,包括MOT15、MOT16、MOT17和MOT20。MOT15包含22个序列,MOT16包含14个序列,MOT17在MOT16的基础上增加了三个检测器的检测边界框,而MOT20包含8个序列,专注于拥挤场景。为了评估,使用了CLEAR指标,包括多对象跟踪准确度(MOTA)、ID F1分数(IDF1)、更高阶跟踪准确度(HOTA)、大部分跟踪率(MT)、大部分丢失率(ML)和身份交换次数(IDS)。MOTA、IDF1和HOTA是三个重要的综合性指标,MOTA关注检测性能,IDF1关注关联性能,而HOTA平衡了检测性能和关联性能。
2. 实施细节
所有实验均在NVIDIA GeForce RTX 3090 GPU上训练,模型训练30个周期。对于MOT15,设置了类别阈值、可见度阈值、图像选择阈值、扩散提示和扩散增强系数等参数。对于MOT16和MOT17,根据序列的不同,调整了类别阈值和图像选择阈值。对于MOT20,由于全部是静态相机视角数据,只需设置SVA和GS参数。
3. 长尾分布解决方案的比较
在MOT17验证集上,根据类别平均原则将所有类别分为头部类别和尾部类别。评估了多种长尾分布解决方案在多个类别上的性能。结果表明,某些方法虽然提高了MOTA指标,但降低了IDF1指标,而Logit调整方法虽然提高了所有类别的性能,但降低了尾部类别的性能。与之相比,我们的方法在所有类别、头部类别和尾部类别上均取得了最佳性能。
4. 与其他SOTA方法的比较
我们的方法应用于两个最先进的联合检测和跟踪算法,并在四个公开的MOT基准上进行评估。结果表明,我们的方法可以在MOTA、IDF1、HOTA等指标上提高算法性能,尤其是在MOT15和MOT20基准上。MOT20数据集的头部类别和尾部类别数量差异很大,我们的方法减轻了MOT20数据集的长尾分布负面影响,在密集的行人场景中取得了极其优越的性能。
讨论:不同数据集上性能差异的分析
我们的方法在不同的MOT数据集上表现出不同程度的性能提升。通过分析,我们发现MOT20数据集的长尾分布特征最为明显,这解释了我们的方法在MOT20数据集上取得最佳指标的原因。MOT20数据集中少数类别的数量超过3000,而90%的类别数量不到1000,呈现出严重的长尾分布特征。与MOT20类似,MOT15也具有类似的特征。与MOT15和MOT20相比,MOT16和MOT17的类别数量下降更为平缓。
此外,我们还探讨了我们的方法在使用不同数据集进行训练时的数据效率。结果表明,仅使用MOT20数据进行训练的方法在MOTA和IDF1上比使用混合数据进行训练的基线方法高出4.1%和3.0%,表明我们的方法对数据效率尤其有效。
结论与展望
本研究首次深入探讨了多目标跟踪(MOT)数据集中存在的轨迹长度长尾分布问题,并提出了针对性的解决策略。我们发现,不同行人的轨迹长度分布存在显著的不平衡,这一现象我们称之为“行人轨迹长尾分布”。为了解决这一挑战,我们提出了两种数据增强策略,包括针对静态相机视角的Stationary Camera View Data Augmentation(SVA)和针对动态相机视角的Dynamic Camera View Data Augmentation(DVA),以及用于Re-ID的Group Softmax(GS)模块。这些策略可以集成到现有的多种跟踪系统中,通过广泛的实验验证了我们方法在减少长尾分布对多目标跟踪性能影响方面的有效性。
未来的研究方向可以围绕以下几个方面展开:
1. 数据增强策略的进一步优化:虽然SVA和DVA策略已经证明了其有效性,但仍有可能通过改进这些策略来进一步提高数据利用效率和跟踪性能。
2. 模块改进的深入研究:GS模块为处理长尾分布问题提供了一个新的视角,未来可以探索更多类似的模块设计,以提高网络对尾类别特征的学习能力。
3. 针对不同场景的定制化解决方案:不同的MOT应用场景可能会有不同的数据分布特征,因此,根据特定场景定制化解决方案可能会取得更好的效果。
4. 端到端学习框架的探索:目前的方法依赖于特定的数据预处理和后处理步骤,未来可以探索更加端到端的学习框架,以简化模型训练和部署过程。