人体姿态估计图推理网络GRR-GCN论文阅读理解

由上海大学发表在2020年的IEEE Access期刊上的论文《Global Relation Reasoning Graph Convolutional Networks for Human Pose Estimation》,使用了GCN实现全局关系推理,用于人体姿态估计任务。

概述

GRR-GCN (Global Relation Reasoning Graph Convolutional Networks) 是一个通用的"plug-and-play module",可以嵌入到现有的human pose estimation网络中,通过引入GCN实现"global relation reasoning"。

创新点

  • Projection between feature space & graph space

    使得GCN方法用于pixel level的Human Pose Estimation任务成为可能

  • Global Relation Reasoning

    使用GCN建立了joints之间的全局推理,每个node中存储了对应关节点的feature信息

Motivation

Human Pose Estimation任务中的一个难点是occlusion等问题,需要joints之间做reasoning。现有方法的解决思路通常是采用多个stages的思路,在前几个stages先predict出"simple" body joints,后面几个stages通过不断增加receptive field来提取joints之间的relationship从而predict "hard" joints。

Related works

(1) CPN的做法,GlobalNet先走了simple joints,然后RefineNet使用了GlobalNet上的pyramid features,对于"hard" joints经过了更deep的网络结构。

(2) Stacked Hourglass则是implicitly的做法,通过intermediate supervision来训练网络隐式的提取joints relationship。

注:上述方法全部使用纯CNN来实现joints relationship reasoning。

使用纯CNN方法reasoning的缺陷

关节点之间的距离在RGB空间可能比较远,纯CNN的结构需要经过非常deep的网络才能使得receptive field足够大,计算量非常大,同时也会introduce进来一些noise信息。

现有的GCN主要用于行为识别和场景理解等classification问题,对于pixel-level computer vision tasks目前仍缺少GCN的解决方法。

因此在本工作中通过projection和reverse projection的操作,架起了CNN的Euclidian space和GCN的graph space的桥梁,从而把Global Relation Reasoning运用到pixel-level的Human Pose Estimation任务中。

Projection between feature space & graph space

研究意义

使得在Euclidean space无法直接进行的GCN推理成为可能,这对于检测skeleton joints来说更方便对关节点之间的相关性建模。推理完之后reverse projection到原来的domain,可以让skeleton joints推理后的信息反过来帮助网络在图上正确检测关节点。

实现方式如下:

Projection between feature space and graph space

From feature space to graph space

网络对skeleton joints提特征得到feature map后,如果使用GCN进行推理,需要先把domain从feature space变换到graph space,这里的feature map的维度:X\in R^{(W\times H)\times C} (分别表示输入feature map的宽高和channel数)

由于GCN需要对整个人的skeleton进行整体推理,因此projection的过程需要receptive field到全图。这里使用了weighted global pooling来实现,获得graph space的F=PX,其中weight的维度P\in R^{N\times (W\times H)},得到的F\in R^{N\times C},其中N表示skeleton joint的个数。

实际上具体实现时为了减少输入维度和网络参数量,使用了一个1\times 1的卷积来对X进行预处理为\Phi(X),因此上式应写成:F=P\Phi(X)

From graph space back to feature space

从graph space使用GCN做完推理后,还需要mapping回原来Euclidean space的feature map,这里设GCN输出的feature map的维度Z\in R^{N\times C},这个reverse projection也是使用linear mapping来实现:Y=DZ,这里逆变换的系数矩阵使用正变换的transpose:D=P^T。这里系数D复用的好处是减少了训练的参数量和网络计算量。

Global Relation Reasoning

GCN中的每个node为了代表对应的skeleton joint,整个GCN的功能是建立关节点之间的推理,也就是说让各个node之间的feature相互联系。

这部分为了让所有的关节点之间都可以建立联系(实现Global Relation Reasoning),采用了全连接的方式,即对N个node采用了N\times N的adjacency matrix。

具体实现的流程如下图。

Global Relation Reasoning

从原始的feature space的X经过projection (图中右侧的那个P)得到graph space,同时X本身通过一个1\times 1conv进行压缩(减少输入维度和网络参数量)到\Phi(X),这两路做element-wise sum,得到F=P\Phi(X) ,这里编码了所有N个node的feature,每个node表示对应的那个skeleton joint,此时使用一个全连接的graph G_g (adjacency matrix的维度是N\times N) 用来实现nodes之间的信息传递(实际实现的时候是用一维卷积来实现G_g)。
然后使用了一维卷积E_g来实现state update function,GCN得到的结果如下:

Z=((I-G_g)F)E_g

其中G_gE_g这两个adjacency matrix的weights是随机初始化,然后通过end-to-end方法进行训练。

实验效果

分别使用了HR-Net和Simple-Baseline的方法作为基础网络。

COCO数据集上,AP提升了0.2 (HR-Net: 74.9 --> 75.1)和0.3 (Simple-Baseline: 71.5 --> 71.8)

MPII数据集上,PCKh@0.5提升了0.1 (HR-Net: 91.2 --> 91.3)

提升的地方主要在于partially occluded的person检测的更准确。

一些疑问

  1. 文中所提出的方法为什么没有使用人体skeleton的自然连接方式对GCN的adjacency matrix做初始化,而是random初始化?

  2. Global Relation Reasoning这部分,经过压缩的feature \Phi(X)与投影后graph空间的P融合方式为什么是相乘?

    融合后的feature F为什么要减去他本身经过fully-connected graph G_g的结果?

    为什么E_g能实现state update function?

    最后reverse projection后的结果与GRR部分的输入又做了一次相加的意义何在?

    对于这一块的实现方式我表示有很多问号。

  3. 实验结果只提升了很少,但是对于不同的pose estimation方法,要分别设置GCN的引入位置,花了这么多设计的代价换来很少的准确率提升值得吗?

  4. 文章的审稿质量并不敢完全保证很好,即使在publication的版本中,仍有英语语法错误,例如Sec. III-A中,

    "However, because convolution operations can only model local relations, so most of the state-of-theart methods have to inefficiently build deep network layers to capture global relations between different human keypoints."

    由此推测作者可能是先写了中文草稿然后翻译投稿的。

Reference

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容