Action Tubelet Detector for Spatio-Temporal Action Localization
论文原文地址:https://arxiv.org/abs/1705.01861
任务:分析视频序列,检测某些动作发生的时空位置(起止时间和每一帧视频中的发生位置),即spatio-temporal action localization。
论文创新点:
1.推广了anchor,兼顾时空域,
2.基于1,推广SSD算法进行spatio-temporal action localization,兼带的好处就是,视频中丰富的时控信息被利用。
(如果不了解SSD的同学可以先看一下SSD)
缺点:
推广方式较为简单,有一定的问题,只适用于动作变化不剧烈的场合。
实际的网络结构如下图,这里简单描述一下,有什么问题,请及时提出,我会进行更正:
1.将每一帧的视频按照时序输入到SSD网络
2.将SSD网络中的各层特征图按照STACK排列,简单说就是,将各层特征按照,同层特征横向排列,不同层特征纵向排列。这样就将各层的特征按照时序组织起来了。
3.推广anchor的概念,对于单个anchor的候选框而言,假设其候选框在较短的时间内变化不大,因此每个候选框都相当于一个立体矩形,这样的anchor被称为anchor cuboid。
4.对于每个anchor cuboid,在每个时序点上进行调整,调整的依据是STACK上的特征图,方法是根据特征图进行卷积运算,回归出对应anchor的活动(activity)的分类和相对原来anchor的坐标位置。