End-to-end Recovery of Human Shape and Pose
cvpr2018的文章,
有道云笔记:http://note.youdao.com/noteshare?id=2514205ee272234c20a29e92aedb089b
下载地址:https://arxiv.org/pdf/1712.06584.pdf
学习参考:https://blog.csdn.net/weixin_44599751/article/details/88877811
译文:http://tongtianta.site/paper/1121
源码:https://github.com/akanazawa/hmr
端到端的方式训练模型存在的挑战:
1. 缺乏对野外图像的大规模地面真实3D注释,具有精确3D注释的现有数据集的捕获环境受限。在这些数据集上训练的模型并不能很好地概括现实世界中图像的丰富性。2. 单视点二维到三维映射的固有区别:众所周知的是深度模糊的问题,其中多个3D身体配置解释相同的2D投影。这些配置中的许多可能不是人体测量学上合理的,例如不可能的关节角度或非常瘦的身体。此外,估计相机明确引入了人物尺寸和相机距离之间的附加比例模糊度。
本文提出了一种新颖的网格重建方法解决这两个挑战:
新颖网格重建方法:给定一个图像,网络必须推断3D网格参数和相机,使3D关键点与投影后的带注释的2D关键点匹配。为了解决模糊问题,将这些参数发送到discriminator network,discriminator network的任务是确定3D参数是否对应于真人的身体。
因此,鼓励网络在human manifold上输出参数,而discriminator network则充当弱监督。该网络隐含地了解每个关节的角度限制,并且不鼓励使用不寻常身体形状的人。
预测身体模型参数的挑战:
预测身体模型参数的另一个挑战是回归到旋转矩阵具有挑战性。建议以反馈迭代的方式直接回归这些值。我们的框架如图2所示。
超越现有技术的方法:
1.我们直接从图像特征推断出3D,而以前的方法则是从2D关键点推断3D。这不仅丢弃了大量的图像信息,而且需要两阶段的训练。
2.我们超越了骨架和输出网格,这对于许多应用来说更复杂,更合适。再次,不需要额外的推理步骤。
3. 我们的框架以端对端的方式进行训练。我们在3D联合误差和运行时间方面超出了先前输出3D网格的方法
4. 我们显示有和没有成对2D-3D数据的结果。即使不使用任何配对的2D到3D监督,我们的方法也可以生成合理的3D重建。这是最令人兴奋的,因为它为从大量2D数据中学习3D提供了可能性。