2D关键点检测之RSN50:Learning Delicate Local Representations for Multi-Person Pose Estimation

image.png

论文链接:Learning Delicate Local Representations for Multi-Person Pose Estimation
时间:2020.03 ECCV'2020
作者团队:Yuanhao Cai, Zhicheng Wang, Zhengxiong Luo, Binyi Yin, Angang Du, Haoqian Wang, Xiangyu Zhang, Xinyu Zhou, Erjin Zhou, Jian Sun
分类:计算机视觉--人体关键点检测--2D topdown_heatmap

目录:

1.RSN50背景
2.RSN50姿态识别
3.RSN50网络架构图
4.引用

1.主要在于学习记录,如有侵权,私聊我修改
2.水平有限,不足之处感谢指出


1.RSN50背景

  人体姿态估计对位置精度要求很高,涉及关键点定位和分类。空间信息有利于定位任务,语义信息有利于分类任务,为了提取这两类信息,目前的方法主要集中在层间特征(inter-level )的聚合上。之前的很多姿态估计模型为了更好的利用多尺度的feature,常会在不同level(featuremap size相同大小的为intra-level)之间融合信息(inter-level),再接几层卷积得到最后的输出。
  但是有关intra-level间的信息融合研究却很少,该论文的主要关注点就是intra-level。
主要贡献:
  1.提出一种新的方法 Residual Steps Network(RSN)。
  2.RSN有效地聚集具有相同空间尺寸(层内特征)的特征,获得精细的局部表示,保留丰富的低层空间信息,实现精确的关键点定位。
  3.提出一种高效的注意力机制——Pose Refine Machine(PRM),在输出特征的局部和全局表示之间进行权衡,进一步确定关键点位置。


2.RSN50姿态识别
  1. 网络结构部分
      


    image.png

 1.(a)是一个提取feature的backbone,特征图被连续地降采样到输入图像的1/4、1/8、1/16、1/32大小。
 2.(c)就是inter-level feature fusion,不同层次特征的感受野之间存在很大的差距,用浅蓝色边框表示,通过层间特征融合学习到的表征相对粗糙,阻碍人体姿态的精确定位。在hourglass, CPN,MSPN等经常用到。
 3.(b)就是本文着重提出的intra-level feature fusion,由红色边框表示的层内特征的感受野之间的差距相对较小。low-level的feature map可以有效的帮助网络去更准确的定位关键点的位置,可以提取更精细的局部表示,保留更精确的空间信息,这对关键点定位至关重要。


image.png

  文章提出网络结构Residual Steps Network(RSN),每一个RSN里面都是由基本单元Residual Steps Block(RSB)组成。该网络受到DenseNet的启发,但DenseNet是concate的,随着模型的depth增加,模型会变得越来越大,所以改进DenseNet的连接方式由concate改为element-wise sum,同时使用中间监督,且在最后一个RSN后面接入提出的Pose Refine Machine,对featuremap做最后优化。

  1. RSN网络


    image.png

  Residual Steps Network通过反复增强RSB内部高效的层内特征融合来学习精细的局部表示,RSB是RSN的组成单元。在RSB中所有的featuremap level都是相同的,所以在RSB中执行的都是intra-level feature fusion。
  RSB首先将特征分成四个分割f_i(i=1\text{、2、3、4}),然后分别执行一个1×1conv。从conv1×1输出的每个特征都会经历n个3×3 conv。然后将输出特征y_i(i=1\text{、2、3、4})串联起来并输入到1×1 conv,使用identity连接。
  在第i个分支上,前i-1conv3×3接收第个分支输出的特性,然后第i个conv3×3被设计用来重新融合第i-1个conv3×3输出的特征。
  由于密集的连接结构,特征的小间隙的感受野被充分融合,从而形成精细的局部表示,保留精确的空间和语义信息。同时深度连接的结构可以更好地监督低层特征,这有利于关键点定位任务。

  1. RSN感受野分析


    image.png

  计算第i个卷积层的感受野:
l_k=l_{k-1}+[(f_k-1)*\prod_{i=1}^{k-1}s_i]
  l_k表示第k层对应的感受野大小, f_k表示第k层的核大小,s_i表示第i层的stride。当只关注一个区块中相对感受野的变化时,f_k=3,s_i=1 ,则可简化为:
l_k=l_{k-1}+2
  表明RSN比ResNet、Res2Net和OSNet具有更广的尺度范围。

image.png

  实际上,f_1只有一个3x3的卷积便得到y_1,所以\mathbf{y}_{(1,1)}=3f_2有两个3x3卷积,图中可以看到,\mathbf{y}_{(2,1)}是由\mathbf{y}_{(1,1)}经过1x1卷积后的结果element-wise sum,再通过一个3x3卷积得到,只考虑branch f_2的感受野,RF\mathbf{y}_{(2,1)}=3,但由于加入\mathbf{y}_{(1,1)},相当于2个3x3的卷积,所以RF\mathbf{y}_{(2,1)}=(3,5),余下的同理。
  虽然RSB中所有的feature都是在同一level上,但不同branch表达的感受野大小不一样,和其它模型相比,RSB可以表达的感受野更宽,更深。
  每个人类关节的大小变化很大,因此,感受野范围更广的体系结构更适合于提取与不同关节相关的特征,有助于学习更多的区分语义表示。
  同时,RSN通过RSB内部的small-gap感受野在特征之间建立紧密的连接。这种深度连接的体系结构有助于学习精细的局部表示,这对于精确的人体姿态估计至关重要。

  1. 注意力机制——PRM
      在多级网络的最后一个模块中,使用一种注意力机制-Pose Refine Machine姿势调整机(PRM)来重新加权输出特征。


    image.png

  PRM首先对输入的featuremap进行3x3卷积得到feature map f,然后分成3个path,top path为Identity,middle path是根据SENet修改的channel attention结构,先经过global pooling,再经过2个1x1的卷积,最后通过sigmoid得到Weight Vector \alpha\alpha会和f相乘得到一个新的featuremap \mathbf{f}_{mid}。bottom path是spatial attention结构,先经过1x1卷积,再通过kernel=9x9的depth wise卷积,最后通过sigmoid得到\beta。PRM结构的输出 \mathbf{f}_{out}f_{out}=K(f_{in})\odot(1+\beta\odot\alpha)
  PRM利用注意力机制,有效的利用由前面RSB得到的inter-level和intra-level的混合信息,channel wise attention有利于语义信息,spatial attention有利于精确定位。
  PRM中的top identity mapping有助于保留本地特征,有利于精确定位关键点。middle path被设计为在通道方向上重新加权特征,而bottom path被设计为用于空间注意力。

  1. 总结
      1.提出的RSB结构,高效的intra-level feature fusion结构,提高模型的定位精度。
      2.提出的PRM结构,进一步对pose的结果进行refine。

  2. 结果评估
      COCO数据集评估结果


    image.png

  COCO minival数据集基础上对GFLOPs的控制变量评估
  随着GFLOPs的增大,ResNet DenseNet Res2Net都趋向于饱和,但RSN结构仍然可以提高精度,和DenseNet的比较可以发现,element wise sum的方式要比concate的方式更有效。


image.png

  不同网络不同level的最后一层卷积后的输出的不同
  RSN在各个level上有效信息比 Res2Net和DenseNet多,响应更准确,范围更小,位置更准确。


image.png

  branch的控制实验
  branch为多少最佳,branch=4


image.png

  COCO测试集基础上的主流模型评估


image.png
image.png

3.RSN50网络架构图

  若加载不出来,访问以下网址

image.png


4.引用

引用1
引用2
引用3

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356

推荐阅读更多精彩内容