GaitSet:Regarding Gait as a Set for Cross-View Gait Recognition


What did authors try to accomplish?

        本文将步态动作看作是一系列步态信息的集合,即步态的识别只跟集合内所包含的特征有关,而和特征的序列信息无关。

What were the key elements of the approach?


Set Pooling

本文设计了一种set pooling来将视频片段中每一帧的特征归纳到一个集合中,然后通过pooling的方法,将集合中所有的帧的特征进行融合。即输入维度为(n,c,h,w),其中n表示帧数,c表示通道数,h表示高度,w表示宽度,而输出维度为(1,c,h,w)。Pooling具体的实现方法有max(·),mean(·),median(·)三种,而本文中使用两种joint functions:

G(·)=max(·)+mean(·)+median(·)

G(·)=1_1C(cat(max(·),mean(·),median(·)))

其中1_1C表示1x1 convolutional  layer.同时,本文还加入了attention机制,来让网络学习到集合中真正影响最终检测结果的元素。

Horizontal Pyramid Mapping

为了保留feature map的空间信息,同时保留了local 和global信息,本文提出了horizontal pyramid mapping的方法。在h的维度上,分别按照(1,s)的规模将feature map进行切分,总共会得到\sum\nolimits_{s=1}^S2^{s-1} 个片段,对每一个片段进行maxpooling和averagepooling,并将它们进行相加,最后拼在一起,就成为了最终的feature map。

What can you use youself?

1.忽视序列的顺序信息,将步态序列视为一个集合的做法,将关注重点放在每一个pose的关键点上,从而提取出真正影响检测效果的特征。

2.使用horizontal pyramid mapping的方法,保留了local和global的信息。

What other reference do you want to follow?

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容