笔记人:吉靖宇
论文题目:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
作者:苏黎世联邦理工大学计算机视觉实验室,瑞士
摘要: 卷积神经网络在视觉识别领域中的图像识别领域已经取得了巨大成功,但是,对于视频中的动作识别的,卷积神经网络比起传统的方法,优势没有那么明显。这篇文章的目标是发现一种原则,如何设计一种有效的卷积神经网络用于视频动作识别,以及在给定的有限训练样本的前提下如何学习这些模型。我们的第一个贡献是时间分割网络(TSN),一种特定的基于长范围时间结构的用于视频动作识别的网络。这个模型结合了稀疏时间采样策略和视频等级监督方法,可以使用整体的动作视频进行便捷和有效的学习。另外的贡献就是,我们在TSN的帮助下在一系列数据集的训练中获得了表现良好的卷积神经网络。我们的方法在HMDB51(69.4%)和UCF101(94.2%)数据集上达到了当前最好的性能。同时对训练好的卷积神经网络模型做了可视化分析,定性证明了TSN网络与提出的良好实践的效果
关键字:动作识别;时间分割网络;良好实践
一、简介
视频动作识别吸引了学术界大量的关注[1-6],视频动作识别有及其广泛的应用,比如安全领域,行为分析领域。在动作识别领域,有两个重要且互为补充的方面,表现和动作。一个识别系统的性能,很大程度上依赖于是否能够提取和利用其中的相关信息。然而,由于巨大的复杂性,提取这些信息是非平凡问题。比如尺度的变化、视角的改变、相机的移动。因此,设计一个有效的表示,可以解决以上问题的同时完成分类。最近,卷积神经网络(ConvNets)[7]已经取得了巨大的成功,在对于图像中的目标、场景、复杂事件的分类中取得了可见的成果(8-11)。卷积神经网络已经被引入,来解决基于视频的动作识别[12,1,13,14]。深度卷积神经网络带来了巨大的模型容量,同时可以学习到复杂的判别信息表示,从原始的视觉信息中,在大尺度有监督数据集的帮助下。
然而,不同于图像分类,端到端的深度卷积神经网络视频动作识别方面依然不能明显优于传统的手工设计的特征
(未完待续)