论文笔记Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information CVPR2019

这周看了一篇新的来自CVPR2019的姿态估计paper,不过对计算机视觉任务来说都应该能带来一些启发,笔者按照自己的理解做一个笔记,欢迎讨论拍砖,感谢!

论文题目如下:



一、Motivation and Contribution


       首先,在姿态估计领域,一般面临的挑战主要有光照、尺度差异、遮挡等等。一般来说,高层的低分辨率的语义特征可以用来推导看不见的关节,而低层的高分辨率的语义特征对适应尺度变化推导小尺度的关节十分重要(如脚踝等),那么他们之间的平衡就很重要了。如何结合并利用这两部分特征,是一个难点。

因此,作者提出了用于不同尺度特征图间信息通信交流的CSM模块。(Channel Shuffle Module)

       其次,在当前的姿态估计任务乃至更多的计算机视觉任务中,融合多尺度特征已经是常规操作了,但姿态估计中很少有工作关注增强特征图的通道信息和空间信息。事实上,笔者曾经看到过一篇文章有用到空间注意力机制,Multi-Context Attention for Human Pose Estimation(CVPR2017),感兴趣的同学可以看一看。说回本文,作者同时在姿态估计任务中加入了空间注意力和通道间注意力机制。

同时,作者提出了结合通道和空间注意力机制的残差模块--SCARB模块(Spatial, Channel-wise Attention Residual Bottleneck)

       以上就是作者的主要动机和贡献,基于作者提出的这两个模块改进的CPN网络,取得了更好的效果。

二、主要内容

接下来具体介绍这篇文章提出的这两个模块,包括各自的原理和具体操作。

0、CPN简介

       如图,CPN的整体流程就是首先进行特征的提取,提取出特征金字塔后,进行初步的姿态回归(GlobalNet),接着,进行难例挖掘难的关键点的回归修正(RefineNet),具体细节不再赘述,有许多优秀的博客可以参考。

1、CSM模块(Channel Shuffle Module)

       作者提出CSM模块的目的就是为了加强提取出的特征金字塔不同尺度的多层特征之间的信息交流,对不同尺度(level)的多通道特征采取混洗操作(shuffle,你中有我我中有你)。作者给出这样做的一种解释是通道混合操作可以进一步的打乱底层的特征和高层的特征之间的依赖性(以往的高层特征都是从低层特征卷积池化而来,因此高层依赖于低层),进而这些不同尺度的特征可以相互作为补充和强化。

       那具体操作而言,为了推动不同尺度的特征图的通道间的通信,是在ShuffleNet之上进一步开发了通道洗牌操作来实现这一目的,与之不同,开创性的采用了通道间的洗牌,以前这个操作姿态估计中没有提过。


具体的操作如上图:

1. 对原始提取出的多个特征块进行1*1卷积(这部分图中没有),变换到相同的通道数256,得到的特征用Conv-2~5来表示;

2. 对得到的特征中低分辨率的特征进行上采样,接着在通道维度进行concat操作,得到长的特征(256*4=1024维);

3. 对得到的这部分特征进行shuffle操作,又可以分成reshape-translate-reshape操作;

            3.1  reshape:对得到的1024维的通道特征图进行reshape操作到(g,c),其中定义g为分组,且g*c=1024;

            3.2 transpose:对得到的特征进行transpose(没错,就是转置),得到规模为(c,g)的通道特征图;

            3.3 reshape:最后,再进行一次reshape操作,由(c,g)重新拉长为1024维;

4. 通过上一步操作,得到了新的1024维的通道特征图,接着进行划分,下采样(第2步的反操作),最终得到了shuffle后的特征,用C-Conv-2~5表示;

5. 对得到的shuffle后的特征分别进行1*1卷积,这一步可以认为是在进行特征融合;

6. 最后,与之前的原始特征Conv-2~5做concat,算是最终完成,得到了最终的特征块。

这部分特征块就可以认为是结合高低尺度的比较理想的特征了,可以用来进行关键点的回归。

2、SCARB模块(Spatial, Channel-wise Attention Residual Bottleneck)

       这一部分比较简单,主要就是需要SE-Net和空间注意力机制的知识,这里不做太细节的描述,有许多资料讲的很好。同时作者同时使用通道注意力和空间注意力的启发来自于图片说明领域的SCA-CNN,感兴趣的同学也可以看看。


       直接来看具体的改进后的模块,如上图,原始的残差模块分成了两个分支,原作者直接将注意力机制加在残差分支上,在进行卷积后,目的是使网络关注那些应该关注的地方和通道。作者有一句话讲的很棒:

“Spatial and channel-wise attention not only encodes where (i.e., spatial attention) but also introduces what (i.e., channel-wise attention) the important visual attention is in the feature maps.”

       也就是说,通过结合通道注意力和空间注意力,就告诉了我们what和where是应该被重点关注的。 这里的what就是指的通道注意力,因为每个通道都是由一个卷积核卷积而来,可以认为是某一种特征;而where顾名思义,就是指我们特征图应该聚焦的空间位置。

        回到原文,这两部分注意力机制可以认为是在学习两个注意力权重α和β,对于空间注意力权重β来说,显而易见的,通过对原特征图进行一个1×1×C的卷积,再通过sigmoid激活函数,就得到了规模为H×W×1的空间注意力权重,然后再和原来的特征图逐点相乘即可。

        至于通道注意力部分,权重α的生成和作用方式与SE-Net相同,也是通过单通道特征图的全局池化再进行全连接和激活作用的。

3、总的pipline

接下来来看整体的框架:


        最开始已经提到了,本文的方法是基于CPN做改进,同时使用的也是CPN的人体检测器,那么在单人姿态估计部分直接将CSM模块作用于图像提取出的原始特征得到新的特征,然后就可以进行关节点的回归了。之后,同样有一个难例挖掘的部分,本文考虑的是top8的关节点的回归,绿色方块即为结合了注意力机制的改进后的残差模块。

三、实验

        实验相关参数和策略:4块V100、Adam优化器、初始学习率5e-4、在90和120epoch 的时候分别乘了0.1、输入图像resize到256*142(4:3)、难例挖掘考虑8个top关节点、尺度扩充(0.7-1.3)、旋转扩充(-40~+40)、不特指的话backbone用的Resnet50、预测阶段同样是采用了在原始图像和反转图像预测的平均(对精度有提升)、网络预测采用最高响应到次高响应的1/4偏移为最终预测位置。

        具体实验部分的话主要包括各种消融分析研究,探索了提出的这两个模块的有效性,探讨了CSM中的Shuffle操作的分组g的影响,还有就是证明了与之前的比较的话取得了SOTA。

四、总结

        本文主要的贡献的话就是shuffle通道的操作了,我认为这个操作大家在自己做实验做CV任务的时候也是可以具体分析实现一下看看的,原理上来说应该对许多任务都有效。除此之外值得一提的也就是另外一个模块的改进了,事实上现在在很多领域注意力机制这样一个trick已经越来越普遍了,也可以作为参考。这篇文章的话作者没有开源代码,不过单纯的复现模块可能没有那么复杂,by the way,CVPR2019还有一篇姿态估计领域的文章,高分辨率网络HR-Net,感兴趣的也可以看看,思路也很新颖,效果也很好。

以上,欢迎交流。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容