What did authors try to accomplish?
本文将步态动作看作是一系列步态信息的集合,即步态的识别只跟集合内所包含的特征有关,而和特征的序列信息无关。
What were the key elements of the approach?
Set Pooling
本文设计了一种set pooling来将视频片段中每一帧的特征归纳到一个集合中,然后通过pooling的方法,将集合中所有的帧的特征进行融合。即输入维度为(n,c,h,w),其中n表示帧数,c表示通道数,h表示高度,w表示宽度,而输出维度为(1,c,h,w)。Pooling具体的实现方法有max(·),mean(·),median(·)三种,而本文中使用两种joint functions:
G(·)=max(·)+mean(·)+median(·)
G(·)=1_1C(cat(max(·),mean(·),median(·)))
其中1_1C表示1x1 convolutional layer.同时,本文还加入了attention机制,来让网络学习到集合中真正影响最终检测结果的元素。
Horizontal Pyramid Mapping
为了保留feature map的空间信息,同时保留了local 和global信息,本文提出了horizontal pyramid mapping的方法。在h的维度上,分别按照(1,s)的规模将feature map进行切分,总共会得到个片段,对每一个片段进行maxpooling和averagepooling,并将它们进行相加,最后拼在一起,就成为了最终的feature map。
What can you use youself?
1.忽视序列的顺序信息,将步态序列视为一个集合的做法,将关注重点放在每一个pose的关键点上,从而提取出真正影响检测效果的特征。
2.使用horizontal pyramid mapping的方法,保留了local和global的信息。