Abstract
我们提出了一个新的基准数据集和视频对象分割领域的评估方法。该数据集名为DAVIS(Densely Annotated VIdeo Segmentation),由50个高质量的全高清视频序列组成,涵盖了多次出现的常见视频对象分割挑战,如遮挡,运动模糊和外观变化。每个视频都附有密集注释的像素 准确的每帧真实分割.此外,我们使用三个互补指标提供了对几种最先进的分割方法的综合分析,这些指标可以测量分割的空间范围,轮廓的精确度和时间相干性。
Dataset Description
-
1. Data Amount and Quality
需要足够大量的数据来确保内容多样性并提供均匀分布的一系列挑战。 此外,拥有足够的数据对于避免过度拟合和延迟性能饱和至关重要,从而保证数据集的使用寿命更长。 数据质量也起着至关重要的作用,因为它应该代表当前的技术状态。 为此,DAVIS包含总共50个序列,3455个带注释的帧,全部以24fps和全高清1080p空间分辨率捕获。 由于计算复杂性是视频处理中的主要瓶颈,因此序列具有短的时间范围。
2. Experimental Validation.
对于每个视频帧,我们以二进制掩码的形式提供像素精确的手动创建的分割。 虽然我们将DAVIS细分为训练和测试集以提供未来工作的指导,但在我们的评估中,我们不使用划分,而是将数据集视为一个整体,因为大多数评估的方法都没有经过培训 并且由于涉及的计算复杂性,最优参数的网格搜索估计是不可行的。
3. Object Presence
直观地,每个序列应该包含至少一个要与背景区域分离的目标前景对象。DAVIS中的剪辑包含单个对象或两个空间连接的对象。我们选择不具有多个显著运动的不同对象,以便能够公平地比较对单个对象操作的分割方法和联合分割多个对象的分割方法。此外,每个序列具有单个对象消除了由全自动方法执行的检测的歧义。
Experimental Validation
Metrics Selection
1. Region Similarity J
为了测量基于区域的分割相似性,即错误标记的像素的数量,我们使用Jaccard索引J,其被定义为估计分割和groundtruth掩模的交集。给定输出分割M和真值掩膜G,Jaccard索引定义为
2.Contour Accuracy F
从基于轮廓的角度来看,可以将M解释为界定掩模的空间范围的一组闭合轮廓c(M)。 因此,通过一个二分图匹配以提高对小误差的鲁棒性,我们可以比较c(M)和c(G)边缘点计算基于轮廓的精度Pc和召回率Rc.为了提高效率,在我们的实验中,我们使用形态学算子近似替代了二分匹配.我们认为所谓的F-measure F是两者之间的良好平衡
3. Temporal stability T
直观地,J测量两个掩模的像素匹配的程度,而F测量轮廓的精确度。 然而,结果的时间稳定性是视频对象分割中的相关方面,因为对象形状的演变是识别和抖动的重要提示,不稳定的边界在视频编辑应用中是不可接受的。 因此,我们另外引入了时间稳定性测量,其惩罚这种不期望的效果。
关键的挑战是区分物体可接受的运动与不希望的不稳定性和抖动。为此,我们估计将掩模从一帧转换到下一帧所需的变形。直观地,如果变换是平滑和精确的,则结果可以认为是稳定的。每匹配点的平均成本作为时间稳定性T的度量。直观上,匹配将补偿运动和小的变形,但它不会补偿曲线的振荡和误差,这是我们想要测量的。遮挡和非常强的变形会被误解为轮廓不稳定,因此我们在没有这种影响的情况下计算序列子集的测量值。
Metrics Validation
从结果统计图中可以看出J和F有明显的线性关系,更高质量的分割通常也会产生更准确的轮廓。 但是,我们注意到,独立程度足以证明两种措施的使用是合理的。
Quantitative Evaluation
-
均值(mean)是定义为平均数据集错误
R是数据集视频序列Si, -
衰减(decay)量化性能损失(或增益)随着时间的推移。
-
对象召回率(recall)测量得分高于阈值的序列的分数