On Learning Disentangled Representations for Gait Recognition

这篇文章的目的同样是试图提取出视频中对于步态识别比较关键的特征。不同之处在于,除了外观和姿态特征,作者认为,外观特征中应该还包含一类对于每个检测目标来说比较独特的静态特征,比如肢体相对于躯干的长度、躯体的形状等等。因此,本文使用基于CNN的网络,将提取出来的特征分为三类:Appearance feature,Canonical feature,Pose feature.本文使用一个encoder来将视频特征分为三类,为了保证提取出来的特征是有效的,同时采用一个decoder来将特征还原成原始状态。为了确保提取出来的fa和fc是有效的,因为fa和fc应该是静态的,decoder的输入是t1时刻帧的fa和fc,以及t2时刻的fp,来对t2时刻的帧进行还原。最终得到的fc是从视频序列每一帧中提取出来的fc的平均,同时使用lstm,将每一帧的fp变为一个序列进行最终的识别。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容