论文 | CVPR2020 《Action Genome: Actions as Compositions of Spatio-temporal Scene Graphs》 论文解读

一 写在前面

未经允许,不得转载,谢谢~~~

这也是今年发表在CVPR上的文章,简单整理记录一下。

主要信息:

二 主要内容

2.1 相关背景

以action recognition为代表的视频理解任务通常将视频当成一个单独的动作进行分析。相对应地,很多数据集对一个视频也用一个action进行标注。

虽然在图像领域,像scene graph这样的结构化表示已经被证明可以在很多任务上提升模型的性能。但在视频领域,视频动作的拆解(objects以及relationship的对应关系)还处于under-explored状态。

在认知科学也有研究支持人类会将长的视频分成几段以便理解。

2.2 本文工作

  1. 在视频领域,提出Action Genome,将动作表示成spatio-tempoal scene graph的形式。

以“person sitting on a sofa“为例,Action Genome在其对应的帧上进行object和relation的注释:

  • object:person,sofa
  • relation:<person next to sofa>, <person in front of sofa>, <person sitting on sofa>
  1. 基于Charades构建含有scene-graph的数据集:Action Genome

按照上面所示的例子,对视频进行sene-graph的标注工作,具体包括object以及relation;

最后的数据集包含:

  • 157 action categories;
  • 234K video frames;
  • 476K bounding boxes;
  • 1.72M relationships
  1. 在三种任务上进行了scene graph对于视频理解的帮助:
  • action recognition
  • few-shot action recognition
  • spatio-temporal scene graph prediction

三 具体方法

3.1 Action Genome dataset

先简单介绍一下scene graph:

  • node:object(物体对应图里的节点)
  • edge:realtionship(物体之间的关系对应图中节点之间的边)

对应数据集的标注与构建:

  • 整个数据集是基于Charades构建起来的;
  • 标注的方法是action-oriented sampling strategy (以视频中的action为导向进行标注)
  • 具体对应这个图进行解释:

对于视频中的每个action(不同的颜色段),在这个时间范围内统一sample 5帧进行注释。假设一段视频中有4个actions(action本身可包含,可覆盖),那总共会有4x5=20帧视频帧被标注到。

具体的标注形式如图所示,先标出跟这个action相关的object(bounding box),然后再标注relationships。

其中总共包含3类realtionships:

  • attention(looking or not)
  • spatial (空间位置)
  • contact (交互方式)

最后的数据集信息:

  • 234253 frames
  • 35 object classes, 476229 bounding boxes
  • 25 relationship classes,1715568 instances

3.2 方法

方法部分相对比较简单,主要就是构建scene-graph,然后获取最终的representation。

看颜色的线路(蓝 vs 绿),最终的特征来源最终包含2个部分:

  1. scene graph
  2. 3D CNN

其中scene graph的部分,对于视频中的每一帧经过scene graph predictor(先用Faster RCNN进行object detection,再用RelDN进行relationships prediction )构建对应的graph,然后用类似long-term feature bank中的方法获取到graph对应的特征表示。

具体而言,图中看到的feature map是|O| x |R|大小的,|O|表示所有object的数目(已经包含person),|R|表示所有relationship的种类,其值等于对应object的置信度乘上对应relationship的置信度。然后对于每一帧,都把这个map展开作为这一帧的feature,最后对不同帧之间做一个融合得到scene-graph这一路得到的特征。

3D CNN这一路是取视频中比较短的片段过3D conv主导的网络,最终得到的feature,这样可以结合短距离信息和长距离信息。

四 实验结果

介绍一下关于action recognition的结果:在Charader数据集上,通过用scene-graph features替换LFB(long-term feature bank)的feature banks ,能在SOTA的LFB上提升1.8% mAP。

另外还做了一个验证实验,假设真实的scene graph是存在的情况下,也就是直接用手工标注的GT进行scene-graph的构建,能在mAP上获得16%的提升。

五 写在最后

现在的视频分类的文章基本都不在ucf,hmdb这种小数据集上做了==,感觉从科研的角度来说会越来越难,但是真的能出现一些更challenging更有意义的工作还是感觉很好的。

感谢阅读~

有问题欢迎交流。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335