Feature Mapping for Learning Fast and Accurate 3D Pose Inference from Synthetic Images总结

文章链接

摘要

​ 使用合成图像来训练深度网络的能力是非常有价值的,因为很容易用这种图像创建一个几乎无限的训练集,而捕捉和标注真实图像可能非常麻烦。然而,合成图像与真实图像并不完全相似,将其用于训练会导致性能不佳。

​ 在本文中,首先计算真实图像的特征,将其映射到合成图像的特征空间,然后将生成的特征作为另一个网络的输入,例如预测三维手势的网络。由于使用合成图像可以非常有效地训练该网络,因此它在实践中表现得非常好。在NYU数据集用于从深度地图进行三维手姿态估计,取得目前最好的效果。

关键

  1. 网络结构
  1. 训练

  2. 使用合成图片训练网络f + h

  3. 使用姿势相同的真实-合成图片对训练映射网络g, 与真实图片相同姿势的合成图片经f的到的特征与真实图片经f+g得到的特征作Loss

  1. 使用真实图片训练完整网络f+g+h

  2. 损失函数

其中

  • \cal L_{hS}为用合成图片训练的f+h预测的3D坐标误差

  • \cal L_{hR}为用真实图片训练的完整网络f+g+h预测的3D坐标误差

  • \cal L_{g}为真实图片相同姿势的合成图片经f的到的特征与真实图片经f+g得到的特征作Loss

  1. 映射网络g的作用
  1. 手势预测

预测网络h结构类似参考DeepPrior++

结果

Geforce TITAN X - 110fps

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容