这是一篇关于人体姿态关键点检测的论文。话不多说,开始看论文。
Abstract
摘要就是说了自己的工作和常见模型的区别,常见的模型一般是先降分辨率,在低分辨率下获得high-level的feature map检测出关键点,然后通过low-to-high网络恢复分辨率,或者是把所有的low-resolution的和high-resolution的feature map 给聚合在一起(融合次数少)。然而在这篇论文中,照片在整个过程中保持了高分辨率,同时也会降低分辨率得到high-level的feature map,然后在几个不同分辨率的平行网络间不断地进行信息单元的交换 / 特征图融合,达到低水平的特征图含有从低分辨率中获取的高水平的特征图的特征。 这样最终会得到一个含有信息丰富的同时又是高分辨率的图像,还不用再从低分辨率图像中恢复了,作者说这样预测的更准。(整个过程大概是这样
文中还总结了例如Hourglass、Cascaded pyramid、SimpleBaseline、Combination with dialated convolution四种,Hourglass是最简单的,降低分辨率然后恢复;第二种级联金字塔型的可以看到在low-to-high的恢复过程中融合了之前high-to-low的特征图;后边两个看着也挺简单的。反正肯定是没这篇文章里建的好,我也觉得是这样。
Related work
预测关键点的两种主流方法:回归关键点位置,或生成heatmap。
高低-低高
一种是对称的(symmetric); 一种是重高低(heavy high to low),轻低高(light low to high);还一种是带dialated concolution的,不了解。
多尺度融合Multi-scale fusion
之前有的模型进行简单的融合(把高到低过程中生成的response map[和feature map有什么区别?] 融合到低到高的图像中),而我们提出的模型进行了多次的融合,这是受了之前深度融合及其拓展研究的灵感。
Intermediate supervision
不了解,论文也没用到。
Our approach
重复摘要里的话。
重点是怎么进行的:哦,他是把要检测的K个关键点分成在K张图片上分别预测不同的关键点:
就像下图这样干的: 嗯,有点意思。(不过貌似和展示的Figure 4的图不太对啊,而且除了Figure里出现了Figure 4,论文里压根就没提过Figure 4,难道是写漏了?
这是论文里展示的Figure 4,不知道从哪里来的,我跑出来的都是上图那样的点状图。
接下来讲了一下每一层(paralel network)里的图片分辨率:s-stage, r-resolution
然后画这个结构还不是伸手就来:
然后讲了一下然后讲了一下多尺度的融合exchange unit的过程:低分辨率的采取最近邻上采样,高分辨率的采取步长为2的3x3卷积,相同分辨率的不变。
C代表每个上边N的卷积结果,s-stage,r-resolution,b-block,这个图里有三块。
ε是每一块的交换单元,
然后他说了之间的映射关系:就是之前说的低分辨率的采取最近邻上采样,高分辨率的采取步长为2的3x3卷积,相同分辨率的不变,然后把他们加了起来,得到下一个stage的maps
然后就回归关键点的位置,与真实标注图片里关键点的位置比对,做MSE Loss函数进行训练。
Network instantiation
然后他说他根据ResNet的规则定义了每阶段的深度和每个图的channel,再之后说的我没看懂....大概是内部构造。 后边都不看了。
Conclusion and Future work
还是重复摘要。
个人总结:这篇文章是我看的第一篇关于姿态检测的论文,感觉比之前看的简单好多,可能是国人写的论文,也没有太难的语法,阅读起来略微轻松。