Deep High-Resolution Presentation Learning for Human Pose Estimation阅读中出笔记

    这是一篇关于人体姿态关键点检测的论文。话不多说,开始看论文。


Abstract

        摘要就是说了自己的工作和常见模型的区别,常见的模型一般是先降分辨率,在低分辨率下获得high-level的feature map检测出关键点,然后通过low-to-high网络恢复分辨率,或者是把所有的low-resolution的和high-resolution的feature map 给聚合在一起(融合次数少)。然而在这篇论文中,照片在整个过程中保持了高分辨率,同时也会降低分辨率得到high-level的feature map,然后在几个不同分辨率的平行网络间不断地进行信息单元的交换 / 特征图融合,达到低水平的特征图含有从低分辨率中获取的高水平的特征图的特征。  这样最终会得到一个含有信息丰富的同时又是高分辨率的图像,还不用再从低分辨率图像中恢复了,作者说这样预测的更准。(整个过程大概是这样

本文的模型,平行的网络之间交换信息  


常见的几种模型

        文中还总结了例如Hourglass、Cascaded pyramid、SimpleBaseline、Combination with dialated convolution四种,Hourglass是最简单的,降低分辨率然后恢复;第二种级联金字塔型的可以看到在low-to-high的恢复过程中融合了之前high-to-low的特征图;后边两个看着也挺简单的。反正肯定是没这篇文章里建的好,我也觉得是这样。


Related work

        预测关键点的两种主流方法:回归关键点位置,或生成heatmap。

高低-低高

        一种是对称的(symmetric); 一种是重高低(heavy high to low),轻低高(light low to high);还一种是带dialated concolution的,不了解。

多尺度融合Multi-scale fusion

        之前有的模型进行简单的融合(把高到低过程中生成的response map[和feature map有什么区别?] 融合到低到高的图像中),而我们提出的模型进行了多次的融合,这是受了之前深度融合及其拓展研究的灵感。

Intermediate supervision

        不了解,论文也没用到。

Our approach

        重复摘要里的话。

        重点是怎么进行的:哦,他是把要检测的K个关键点分成在K张图片上分别预测不同的关键点:

关键点是怎么产生的

就像下图这样干的: 嗯,有点意思。(不过貌似和展示的Figure 4的图不太对啊,而且除了Figure里出现了Figure 4,论文里压根就没提过Figure 4,难道是写漏了?

这是我用mpii的hrnet-w32跑出来,分别在K张相同图片上预测不同关键点  

这是论文里展示的Figure 4,不知道从哪里来的,我跑出来的都是上图那样的点状图。

论文里的Figure 4,看着是很漂亮,不过是从哪来的?

接下来讲了一下每一层(paralel network)里的图片分辨率:s-stage, r-resolution

stage--resolution

然后画这个结构还不是伸手就来:

网络结构

        然后讲了一下然后讲了一下多尺度的融合exchange unit的过程:低分辨率的采取最近邻上采样,高分辨率的采取步长为2的3x3卷积,相同分辨率的不变。

        C代表每个上边N的卷积结果,s-stage,r-resolution,b-block,这个图里有三块。

        ε是每一块的交换单元,

结构
中间的块可以理解为一个操作

        然后他说了之间的映射关系:就是之前说的低分辨率的采取最近邻上采样,高分辨率的采取步长为2的3x3卷积,相同分辨率的不变,然后把他们加了起来,得到下一个stage的maps

嗯,简单

        然后就回归关键点的位置,与真实标注图片里关键点的位置比对,做MSE Loss函数进行训练。

Network instantiation

        然后他说他根据ResNet的规则定义了每阶段的深度和每个图的channel,再之后说的我没看懂....大概是内部构造。  后边都不看了。


Conclusion and Future work

        还是重复摘要。

个人总结:这篇文章是我看的第一篇关于姿态检测的论文,感觉比之前看的简单好多,可能是国人写的论文,也没有太难的语法,阅读起来略微轻松。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。