【Video Recognition】SlowFast Network 用快慢结合进行视频分类


这是我发布的第2篇文章,在这个专栏里,我会持续写一些最近看的文章,希望能够与大家有所交流。
欢迎访问我的知乎专栏 元麦没有山丘


论文题目: [ SlowFast Networks for Video Recognition ]

FaceBook AI Research何凯明团队提出了一个快慢双通道网络,利用FastPath捕捉动作信息;SlowPath捕捉视觉语义信息,最后在无预训练的情况下,在Kinetics数据集上视频分类准确率达到了79.0%,在AVA action detection数据集上达到了当前最好的28.3mAP

先说结论:

  1. 空间信息与时序信息应分别对待,不能对称地同等对待
  2. 快慢网络可以不需要在ImageNet进行预训练
  3. Non-Local网络其实没多大的提升效果
  4. 快慢网络对动作幅度、速度更快的动作类别提升大

Motivation

我们所看到的世界大多数是属于静止的,在人类视觉细胞研究中研究者发现,视觉细胞由80%的P-Cell和20%的M-Cell组成,其中P-Cell对颜色、形状等图像信息更加敏感,而M-Cell对时间变化更加敏感。例如一个跳跃动作,整个过程中图像中的视觉语义信息是变化比较缓慢的,而相反移动、跳跃这些动作在时序上变化较快,我们是否能利用两个不同的网络对时序变化不同的信息进行捕捉,从而改善网络性能是这篇文章的主要思想,而基于上述研究与分析,作者提出了SlowFast网络。


正文

在图像识别处理中,我们会对称地处理RGB图像的x轴和y轴信息,自然图像的统计也证明了其合理性。但是在视频任务中,我们不禁想到,时序信息也应该和图像信息一样对称地处理吗?当然不是!作者提出用SlowPath在帧率较低的输入下进行空间语义信息提取,利用轻量级的FastPath在帧率较高的输入下进行时序信息提取,最后进行融合。

模型架构

整个网络的模型架构如下图所示,上面子线路是Slow Pathway,输入的时序帧率低,主要提取空间语义信息,下面的Fast Pathway输入时序帧率高,模型通道数量较少,主要提取时序信息。两条子路在每一个Block都会进行fuse,最后输入给分类器。


image

Slow Pathway架构

Slow Pathway可以是任何的一个视频卷积模,我们假设参数\tau(\tau > 1)是一个输入视频帧的采样率,模型输入的总帧数设为T,则输入视频的总帧数为\tau * T,这里我们一般取\tau = 16,压缩了输入中的时序信息,这样的做法是的Slow Pathway网络更加专注于提取空间的语义信息。

Fast Pathway架构

Fast Pathway是一个轻量级的时序信息提取模型。为减少运算量以及让模型专注于时序信息提取,作者设计时主要有以下几点:

  1. 更高的输入时序分辨率
  2. 更高的输出时序分辨率
  3. 较低的通道容量
  4. 较低的输入空间信息

更高的输入时序分辨率。SlowPath网络的帧采样率为\tau,我们设系数\alpha(\alpha > 1),则SlowPath网络的输入帧采样率设为\tau/\alpha,即FastPath输入的帧数是SlowPath的\alpha倍。

更高的输出时序分辨率。FastPath网络整个过程中没有采用时序上的下采样,保证输入时序维度仍然为\alpha T

较低的通道容量。作者这里发现,FastPath网络降低通道数量,不仅降低了模型的复杂度,还能保证输出的精度,这里设置了一个系数\beta,一般\beta = 1/8,使得FastPath的通道数量始终是Slowpath的\beta倍。
这样的设定保证了FastPath网络的计算量大概占总网络计算量的20%,和我们在人类视觉细胞中发现M细胞的比例大约为20%吻合。

较低的输入空间信息。为了进一步削弱FastPath网络的空间建模能力,作者这里还提出降低输入图像空间分辨率、去除颜色信息等方式,使得网络能更加注重时序信息的变化。

网络整体参数列表

这里,作者以ResNet-50举例,其设计的SlowFast网络参数如下表所示,其中黄色是通道数量,绿色是时序帧分辨率。

SlowFast Network整体参数列表

实验

作者针对不同超参数设置以及融合方式,作者做了很多实验。

fuse method

融合方式中,Slow Pathway的特征尺寸为\{T,S^2,C\},而Fast Pathway的特征尺寸为\{\alpha T,S^2,\beta C\},作者分别尝试time-to-channel(TtoC)、time-strided sampling(T-Sample)、time-strided convolution(T-conv)四种方法,结果如下,利用T-conv效果最好。

不同融合方式结果对比

Channel capacity ratio

在Fast Pathway中降低通道的数量,一方面可以使模型轻量化,另一方面,作者发现降低Fast Pathway模型的空间信息提取能力,可以增强其时序信息提取能力,故对不同的通道压缩比例\beta设置做了实验,其结果如下。

通道压缩比例系数对模型结果的影响

其中设置成1/6和1/8时,Top-1、Top-5最高。
由此,作者思考,是否能进一步削减其空间信息能力来增强时序上的性能,为此,作者将输入的RGB图像分别改成灰度、光流等进行实验,最终发现,利用灰度图作为输入,模型的复杂度得以降低,且精度几乎没有变化。

不同输入模型的结果

ablation experiment

Fast+Slow的双模型结构是否真的有效,还是仅是模型复杂度增加带来的性能提升,对此,作者将Fast网络替换成其他以及单独的Slow网络进行训练,将结果进行了对比。

ablation experiment

从结果可以看出,快慢网络有效的降低了模型的复杂度,且在分类结果中效果非常好。

Various SlowFast instantiations

针对精度和速度不同的侧重,我们可以非常自由的选择Slow网络的输入帧数,其结果如下。

Various SlowFast instantiations

其中T是Slow网络输入的总帧数,\tau输入视频序列的总帧数,\alpha T为Fast网络输入总帧数。可以发现,当Slow网络输入帧数为2时,GFLOPS最低,且Top-1只损失了3.6%,且相比于Slow-only网络,不仅精度高,复杂度更低,充分说明了其模型的有效性。

Result on Kinetics and AVA dataset

何凯明团队提出的这篇文章,在Kinetics数据集上,与没有ImageNet预训练其他模型相比,目前是第一。在AVA action detection任务上取得了第一,其结果如下所示。

Kinetics-400 result
AVA action detection result

总结与展望

在这篇文章中,作者提出Slow+Fast网络,通过大量研究实验,证明了其有效性,总结整篇文章,其主要有以下结论:

  1. 空间信息与时序信息应分别对待,不能对称地同等对待
  2. 快慢网络可以不需要在ImageNet进行预训练
  3. Non-Local网络其实没多大的提升效果
  4. 快慢网络对动作幅度、速度更快的动作类别提升大

最后也利用SlowFast Network在Kinetics数据集和AVA action detection,达到了state-of-the-art。

Reference

[1] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition[J]. arXiv preprint arXiv:1812.03982, 2018.


作者 @鼎鼎大明
2019 年 03月 18日

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343