摘要
在运动方面存在着运动模糊、视频注意力和姿态遮挡等困难。这些问题的原因是不能捕捉视频帧之间的时间线索。直接用循环卷积神经网络会造成空间模型的经验困难。本文提出一种借用视频帧与帧之间时间线索估计行人关键点的框架。这框架里咱放了仨功能模块。一个时间融合编码器,用来计算姿态上每个方向的权重残差。咱这框架厉害,咔咔的。
一 介绍
人体姿态估计是计算机视觉中的基本问题,在安全、暴力检测、人群场景识别、人类行为理解和动作识别有广泛应用。早期应用方法[40,38,48,29]采用概率图形模型或是图像结构模型。近期大家都用CNN而且表现不错。美中不足的是目前最先进的方法都为静态图像处理,应用在视频处理上性能就大打折扣了。
所以傻子都知道本文要哔哔啥了。传统处理方法忽略了视频帧之间的时间依赖性和几何一致性。
有一个简单直观的方法是,用RNN比如LSTM、GRU、3DCNN来建模几何一致性和时间依赖性。用卷积LSTM捕获时空线索,然后直接在热图序列上预测出人体关键点。