文章开头指出了ImageNet开始引入视频作为数据集,意味着计算机视觉进入了新的篇章——可以借鉴做文章的背景陈述
提出了两个核心的点
比较算得上亮点的是将检测和融合结合起来(也许随便一个检测都可以这么说?)
1,A Spatio-Temporal Tubelets Proposal Module
Step 1. Image Object Proposal
The SS method outputs around 2000 object proposals on each video frame. The majority object proposals are negative samples and may not contain objects.
本方案使用了 pre-trained AlexNet model,并且通过R-CNN去除简单得negative object proposals.
并具体提出了去除无用项设置的阈值
Step 2. Object Proposal Scoring
Our detector is a GoogLeNet pre-trained on ImageNet image classification data, and fine-tuned for the DET task.
文章在此处的针对性很强,只针对了30个特定的类,所以使用的网络的pre-train也是直接使用了针对特定任务的网络,对应着30个SVM来进行分类
这里也用到了 hard negative mining 这个trick
Step 3. High-confidence Proposal Tracking
使用特定的tracker来针对性的解决scale和pose的问题
小trick:
we early stop the tracking when the tracking confidence is below a threshold (probability of0.1in our experiments) to reduce false positive tracklets
2, A Tubelet Classification and re-scoring Module
一个很直接的方法就是对 tubelet 中的每个矩形框进行分类。这个方法和基于R-CNN静态图像目标检测效果差不多。原因大致有4点:
1) tubelets 中的矩形候选区域数量要比 Selective Search 少很多,这可能会让我们漏掉一些目标。
2) 针对静态图像训练的目标检测器 对于目标位置的变化比较敏感,如图1(a)所示,所以tubelets 中的矩形候选区域的分数比较低。
3) 在跟踪过程中,我们进行了 proposal sup-pression,这也可能是我们丢失一些目标。
4)我们应该嵌入 temporal information是的检测更稳定。
来自http://blog.csdn.net/cv_family_z/article/details/52873045
step 4. Tubelet box perturbation and max-pooling
提出了两种方式
再次评估tubelet,只留下分数高的框(并取代之前重叠的框),
最大池化则是提高控件上的robustness
step 5. Temporal convolution and re-scoring
这里我们提出了一个 Temporal Convolutional Network (TCN) 来嵌入时序信息来提高tubelet 矩形框检测分数的稳定性。