20组-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset


论文截图

摘要

由于目前行为分类(actionclassification方面的数据集(UCF-101 和 HMDB-51)很缺乏,使得识别视频中的行为分类这一任务没有很好的解决方案,目前大多数的方法性能都很相近。基于此本文提出了一个新的行为分类的数据集——Kinetics。Kinetics比现有的数据集大两个数量级,包括400个行为类别,每个类别有超过400个片段,同时分析了现有方法在这个数据集上的性能,以及经过在Kinetics进行预训练将会有多少性能的提升。

此外,作者提出了一种新的卷积模型——Two-Stream Inflated 3D ConvNet (I3D),通过把2D Conv模型中的filters pooling kernels 扩展到3D,使其可以学习视频中的时空特征。最后,作者通过实验表明,经过在Kinetics数据集上进行过预训练的I3D模型在行为分类上相较之前算法表现出了最优效果:正确率在HMDB-51数据集上达到了80.9%, 在UCF-101数据集上达到了98.0%。

一. 现有行为分类模型实验

本文的目的有两个:1、验证在经过Kinetics的预训练后,行为分类模型往往会有性能上的提升。2、验证I3D模型比现有的行为分类模型性能更好。基于以上目的作者的实验策略是重新复现一系列的行为分类模型,之后在Kinetics上进行预训练,接着分别在数据集HMDB-51 和 UCF-101 进行训练来调整参数,最后比较性能。实验结论是:通过预训练通常会有性能的提升,但是提升的幅度随模型的不同而变化。基于这些发现,作者提出了I3D模型,它能够重复利用预训练的优势,取得更好的性能。

以下就是作者复现的几种行为分类模型:

1. ConvNet+LSTM

动机:借鉴图像分类网络的思想,可以在视频中的每一帧都独立的提取特征,来预测整个视频。但是缺点是这种做法忽略了时间维度,比如这种做法就会分不清关门和开门这两个动作。为了解决这个问题,加入LSTM层,将状态进行编码从而捕获时间序列特征。

实现:图像分类模型采用Inception-V1,将LSTM层接入Inception-V1的最后一个average pooling层,接着在最顶端接入全链接层来进行分类,具体如下图:


ConvNet+LSTM

2. 3D-ConvNet

动机:3D卷积似乎是处理视频很自然的一种方式,就像二维卷积处理图像一样。它直接建立了时空特征的层次表达。但由于比二维卷积网络有更多的参数,模型往往很难训练。另外,3D ConvNets 似乎屏蔽了进行ImageNet预训练的优点,因此不得不从头训练。结果显示3D ConvNets虽然不是性能最好的但是很有前景,因此作者把它选为比较的对象之一。

实现:本文实现了C3D的一个变种,在最顶层有8个卷积层,5个pooling层和2个全联接层。模型的输入是16帧每帧112x112的片段。不同于论文中的实现是,作者在所有的卷积层和全联接层后面加入了BN层,同时将第一个pooling层的temporal stride由1变为2,来减小内存使用,增加batch的大小,这对batch normalization很重要。具体如下图:


3D-ConvNet

3. Two-Stream Networks

动机:由于在ConvNets后外接LSTM层只能建模高维的变化,不能捕捉低维的运动,而且低维的运动同样很重要。此外,由于训练时要将整个网络按时间展开,训练开销很大,难以投入到实用中。因此,一个更加易于实践的方法——Two-Stream Networks 被提了出来。

实现:该方案分为两个部分进行训练,即空间部分和时间部分,其中空间部分是单张的RGB图像帧,时间部分是使用若干个连续帧之间的光流位移场,将这两个部分分别通过两个ImageNet预先训练好的ConvNet。这样建模的模型比较好训练,同时也能获得更高的分数。另外一个扩展的版本(3D-Fused Two-Stream)在最后一个卷积层融合了空间和时间,结果显示在HMDB上性能相对原始的版本得到了提高,并减少测试时间(不需要采样)。Two-Stream 和 3D-Fused Two-Stream都以end-to-end的方式进行训练。具体如下图:


Two-Stream Networks

二. 新模型:Two-Stream Inflated 3D-ConvNet

1. 动机

 A、直接将ImageNet的2D ConvNet扩展成3D Convnets,包括它们的参数,简单易行。

B、仍然采用双流的策略。尽管3D ConvNets可以直接学习时间特征,但是将光流加进来后会提高性能。

2. 实现细节

A、将2D ConvNets扩展到3D:对于一个2D的模型,将它的所有的filters 和pooling kernels 增加一个时间维度,例如将NxN的filter变成NxNxN。

B、由2D Filters得到3D Filters:对N×N的filter重复复制N遍,再除以N进行归一化。

C、确定感受野在空间、时间和网络深度的尺寸:2D网络与对应的3D网络在水平和竖直方向上的kernel大小和stride保持一致,3D网络在时间维度上的kernel大小和stride自由决定,如果时间维度的感受野尺寸比空间维度的大,将会合并不同物体的边缘信息。反之,将捕捉不到动态场景。

D、Two 3D Stream:尽管3D ConvNets可以直接学习时间特征,但是仍然是以纯粹的前向计算的方式进行,而光流算法则体现了循环的特征(计算光流场时需要迭代优化)。作者通过实验发现有必要加入光流,因此,有一个基于RGB训练的I3D,还有一个基于光流训练的I3D,作者分别训练这两个网络,然后在测试时将它们预测的结果进行平均。

具体如下图:


Two-Stream Inflated 3D-ConvNet

三. 实验结果比较

A. 作者比较了上述5个模型在不同数据集上的结果,如下表:

现有行为分类模型实验结果

由上表得出以下四个结论:

1. I3D模型无论是RGB、flow还是RGB+flow模式,在所有的数据集上都表现最好。作者说虽然这个模型需要大量的参数,而且UCF和HMDB数据      集都很小,但是性能依然最好,这表明在ImageNet上进行预训练同样适用于3D Convnets。

2. 所有模型在UCF上表现最好,Kinectics次之,HMDB最差,表明这3个数据集的难度等级不同。

3. 在不同数据集上模型的排名几乎是一致的。

4. two-stream的结构在所有数据集上都表现的更好。

B. 此外,如下图所示,作者同样比较了经过ImageNet预训练后在Kinetics上训练出的模型和在Kinetics从头开始训练出的模型的性能,结果显示经      过ImageNet预训练有一定提升,而且在RGB stream上提升更为显著。

经过ImageNet预训练之后的实验结果

C. 作者在UCF和HMDB上训练了不同方式的soft-max分类器的模型,并且在测试集上评价他们,结果如下表所示:

结果显示,在Kinetics上进行预训练后所有模型的性能都有提升。并且,在Kinetics上进行预训练后仅仅训练最后一层也要比直接训练的性能好。此外,two-stream模型的性能时相当好的即使从头开始训练,这主要是由于光流的精度似乎减少了过拟合的程度。最后,在Kinetics预训练的到的帮助比Image上的预训练更明显。

D. 作者比较了I3D模型和之前最好的模型,结果如下:

I3D模型与其他模型比较

结果显示two-stream I3D最好,在UCF上98%,在HMDB上80.9%

四. 总结

最后作者指出,如同在图像领域上,ImageNet上预训练会带来很多好处,在行为分类领域中,Kinetics上预训练同样也会带来相当多的好处。这也论证了从一个数据集到另一个数据集上的迁移学习可以用来解决相似的任务。然而,在视频语意分割、视频目标检测和光流计算领域,Kinetics上的预训练是否会有同样的帮助,仍然需要进一步研究。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,198评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,334评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,643评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,495评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,502评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,156评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,743评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,659评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,200评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,282评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,424评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,107评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,789评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,264评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,798评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,435评论 2 359

推荐阅读更多精彩内容