CVPR2024亮相新策略，有效应对多目标追踪中长尾分布挑战

开篇：揭示多目标追踪中的长尾分布问题

在多目标追踪（MOT）的研究领域，长尾分布问题是一个不容忽视的挑战。这一问题源于不同行人在MOT数据集中轨迹长度的显著不平衡，即一些行人在视频序列中出现的帧数远多于其他行人。这种现象，我们称之为“行人轨迹长尾分布”。这种分布不平衡导致了网络在训练时对于出现频率较高的头部类别过度学习，而忽略了尾部类别，从而影响了模型对于所有目标的追踪性能。

为了解决这一问题，本研究提出了一系列策略，包括两种数据增强策略——静态相机视角数据增强（SVA）和动态相机视角数据增强（DVA），以及用于Re-ID的群组Softmax（GS）模块。SVA策略通过回溯和预测尾部类别行人的轨迹来增加数据量，而DVA策略则通过扩散模型改变场景背景，提高网络对行人特征区域的关注。GS模块则将行人划分为不相关的组，并对每个组分别进行softmax操作。这些策略可以集成到现有的多种追踪系统中，并且通过大量实验验证了我们方法在减少长尾分布对多目标追踪性能影响方面的有效性。

论文标题：Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

项目地址：https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

长尾分布的影响：对多目标追踪性能的负面影响

在多目标追踪（MOT）的研究中，长尾分布是一个显著的问题，尤其是在追踪数据的分布模式中。长尾分布问题在现有的MOT数据集中表现为轨迹长度的显著不平衡，这种现象我们称之为“行人轨迹长尾分布”。具体来说，一些行人在图像中停留时间长，而另一些行人则快速穿过图像。这导致网络在学习特征时对于出现时间较短的行人学习不足，进而影响了长尾分布数据上的网络性能。

长尾分布数据集的一个常见问题是，网络在长尾分布数据上的训练往往导致偏向于学习数量较多的头部类别的特征，而忽略了表示较少的尾部类别。这种偏差会导致网络在Re-ID分支上的性能下降，因为大多数Re-ID算法将Re-ID视为一个分类问题，并使用softmax模块来计算分类概率。然而，softmax模块存在一个巨大的缺陷：数量较多的类别的权重变得更大，而数量较少的类别的权重变得更小，这会加剧长尾分布数据上长尾分布效应的影响。

解决策略：SVA与DVA数据增强方法介绍

1. 静态相机视角数据增强(SVA)的设计与实现

针对静态相机视角下捕获的多目标追踪数据，我们提出了专为多目标追踪任务设计的静态相机视角数据增强（SVA）策略。SVA策略包括回溯延续和预测延续两种技术。回溯延续应用于训练序列数据中间帧的尾部类别行人，而预测延续则用于训练序列数据最后一帧的尾部类别行人。通过这种策略，可以促进网络对尾部类别行人轨迹的学习。

2. 动态相机视角数据增强(DVA)的策略与步骤

对于动态相机视角下捕获的数据，我们提出了动态相机视角数据增强（DVA）策略。DVA策略包括四个主要步骤：图像分割、图像修复、图像扩散和图像合并。该策略旨在通过改变场景背景的风格，提高网络对行人区域特征的关注。具体来说，首先使用图像分割算法SAM将输入图像中的行人分离出来，然后应用图像修复算法Navier-Stokes对去除行人的图像进行修复，接着使用稳定扩散（Stable Diffusion）处理修复后的图像，最后将分割得到的只包含行人区域的图像与扩散后的图像合并，生成最终的输出图像。通过这种方法，可以增强网络对行人特征的学习，从而提高长尾分布数据上的多目标追踪性能。

Re-ID模块的改进：Group Softmax (GS) 模块

在多目标跟踪（MOT）中，Re-ID（重新识别）模块的作用是至关重要的，它负责识别和区分视频序列中的不同行人。然而，传统的Re-ID方法通常将问题视为一个分类问题，并使用softmax模块来计算分类概率。这种方法存在一个明显的缺陷：对于长尾分布数据，头部类别（出现频率高的类别）的权重会变得更大，而尾部类别（出现频率低的类别）的权重则会变得更小，这加剧了长尾分布的影响。

为了解决这一问题，我们提出了Group Softmax (GS) 模块。GS模块的核心思想是将行人根据他们在训练数据集中的数量分成若干个不相关的组，并对每个组分别执行softmax操作。这样，数量相似的行人类别可以在同一组内进行竞争，从而避免了尾部类别的权重被头部类别的权重所压制。具体来说，我们将训练数据集中的M个行人类别根据它们在训练数据集中的数量分成K个不同的组，然后对每个组分别应用softmax处理，并使用交叉熵损失来计算组损失。最后，我们计算组损失的平均值作为Re-ID损失。

1. 分组规则

我们根据行人在训练数据集中的数量来划分组别，具体的分组公式如下：对于从1到M的每个i值，从1到K的每个j值，N(i)是训练数据集中第i个行人类别的数量，T_l_j是第j组的最低数量阈值，T_h_j是第j组的最高数量阈值，M代表行人类别的数量，K代表组的数量。

2. 组内softmax处理和损失计算

为了确保每个行人类别只被分配到一个组，并保持组的有序性，我们规定第j+1组的最低数量阈值等于第j组的最高数量阈值。我们对每个组分别进行softmax处理，并使用交叉熵损失来计算组损失。然后，我们计算组损失的平均值作为Re-ID损失，公式如下：LossRe-ID表示Re-ID损失，K表示组的数量，j表示组的索引，G_j表示第j组，y_i表示G_j中的标签，p_i表示G_j中的概率。

通过这种方式，GS模块能够有效地提高网络对尾部类别外观特征的提取能力，从而改善长尾分布对多目标跟踪性能的影响。

实验设置：数据集和评价指标

1. 数据集

我们在四个公共MOT基准数据集上进行了广泛的实验，即MOT15、MOT16、MOT17和MOT20。MOT15包含22个序列，其中11个用于训练，另外11个用于测试，包括11286帧。MOT16包含14个序列，7个用于训练，另外7个用于测试，包括11235帧。MOT17在MOT16的基础上增加了三个检测器的检测边界框，即DPM、SDP和Faster-RCNN。MOT20包含8个序列，4个用于训练，另外4个用于测试，包括13410帧，在某些帧中同时包含超过200个行人。

2. 评价指标

为了评估我们的方法，我们使用了CLEAR指标，包括多目标跟踪准确度（MOTA）、ID F1分数（IDF1）、高阶跟踪准确度（HOTA）、大部分跟踪率（MT）、大部分丢失率（ML）和身份切换次数（IDS）。MOTA、IDF1和HOTA是三个重要的综合评价指标。MOTA关注检测性能，IDF1关注关联性能。与它们相比，HOTA平衡了检测性能和关联性能。

实验结果与分析：验证所提方法的有效性

1. 数据集和评估指标

实验在四个公开的MOT基准数据集上进行，包括MOT15、MOT16、MOT17和MOT20。MOT15包含22个序列，MOT16包含14个序列，MOT17在MOT16的基础上增加了三个检测器的检测边界框，而MOT20包含8个序列，专注于拥挤场景。为了评估，使用了CLEAR指标，包括多对象跟踪准确度（MOTA）、ID F1分数（IDF1）、更高阶跟踪准确度（HOTA）、大部分跟踪率（MT）、大部分丢失率（ML）和身份交换次数（IDS）。MOTA、IDF1和HOTA是三个重要的综合性指标，MOTA关注检测性能，IDF1关注关联性能，而HOTA平衡了检测性能和关联性能。

2. 实施细节

所有实验均在NVIDIA GeForce RTX 3090 GPU上训练，模型训练30个周期。对于MOT15，设置了类别阈值、可见度阈值、图像选择阈值、扩散提示和扩散增强系数等参数。对于MOT16和MOT17，根据序列的不同，调整了类别阈值和图像选择阈值。对于MOT20，由于全部是静态相机视角数据，只需设置SVA和GS参数。

3. 长尾分布解决方案的比较

在MOT17验证集上，根据类别平均原则将所有类别分为头部类别和尾部类别。评估了多种长尾分布解决方案在多个类别上的性能。结果表明，某些方法虽然提高了MOTA指标，但降低了IDF1指标，而Logit调整方法虽然提高了所有类别的性能，但降低了尾部类别的性能。与之相比，我们的方法在所有类别、头部类别和尾部类别上均取得了最佳性能。

4. 与其他SOTA方法的比较

我们的方法应用于两个最先进的联合检测和跟踪算法，并在四个公开的MOT基准上进行评估。结果表明，我们的方法可以在MOTA、IDF1、HOTA等指标上提高算法性能，尤其是在MOT15和MOT20基准上。MOT20数据集的头部类别和尾部类别数量差异很大，我们的方法减轻了MOT20数据集的长尾分布负面影响，在密集的行人场景中取得了极其优越的性能。

讨论：不同数据集上性能差异的分析

我们的方法在不同的MOT数据集上表现出不同程度的性能提升。通过分析，我们发现MOT20数据集的长尾分布特征最为明显，这解释了我们的方法在MOT20数据集上取得最佳指标的原因。MOT20数据集中少数类别的数量超过3000，而90%的类别数量不到1000，呈现出严重的长尾分布特征。与MOT20类似，MOT15也具有类似的特征。与MOT15和MOT20相比，MOT16和MOT17的类别数量下降更为平缓。

此外，我们还探讨了我们的方法在使用不同数据集进行训练时的数据效率。结果表明，仅使用MOT20数据进行训练的方法在MOTA和IDF1上比使用混合数据进行训练的基线方法高出4.1%和3.0%，表明我们的方法对数据效率尤其有效。

结论与展望

本研究首次深入探讨了多目标跟踪（MOT）数据集中存在的轨迹长度长尾分布问题，并提出了针对性的解决策略。我们发现，不同行人的轨迹长度分布存在显著的不平衡，这一现象我们称之为“行人轨迹长尾分布”。为了解决这一挑战，我们提出了两种数据增强策略，包括针对静态相机视角的Stationary Camera View Data Augmentation（SVA）和针对动态相机视角的Dynamic Camera View Data Augmentation（DVA），以及用于Re-ID的Group Softmax（GS）模块。这些策略可以集成到现有的多种跟踪系统中，通过广泛的实验验证了我们方法在减少长尾分布对多目标跟踪性能影响方面的有效性。

未来的研究方向可以围绕以下几个方面展开：

1. 数据增强策略的进一步优化：虽然SVA和DVA策略已经证明了其有效性，但仍有可能通过改进这些策略来进一步提高数据利用效率和跟踪性能。

2. 模块改进的深入研究：GS模块为处理长尾分布问题提供了一个新的视角，未来可以探索更多类似的模块设计，以提高网络对尾类别特征的学习能力。

3. 针对不同场景的定制化解决方案：不同的MOT应用场景可能会有不同的数据分布特征，因此，根据特定场景定制化解决方案可能会取得更好的效果。

4. 端到端学习框架的探索：目前的方法依赖于特定的数据预处理和后处理步骤，未来可以探索更加端到端的学习框架，以简化模型训练和部署过程。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343