计算机在图像和视频中识别和理解人类的能力对于包括自动驾驶、动作识别、人机交互、增强现实和机器人视觉在内的多项任务至关重要。人体姿态估计是计算机视觉中的基本问题。近年来,在二维人体姿态估计方面取得了重大进展。这一成功背后的关键因素是可用的大规模注释人体姿态数据集,允许训练网络的二维人体姿态估计。与此同时,在三维人体姿态估计方面的进展仍然有限,因为获得关于密集对应、深度、运动、身体部分分割、遮挡的地面真实信息是一项非常具有挑战性的任务。在本文中,我们列出了几个最近创建的数据集,试图解决用于三维人体姿态估计的带注释数据集的不足。
1、DensePose
DensePose是一个大规模的地面数据集,具有在50K COCO图像上手动注释的图像与表面的对应关系。为了构建此数据集,Facebook AI研究团队邀请了专门人员从2D图像到基于人体的表面表示的密集对应关系。
以下是来自验证集的图像注释的可视化效果:
详情地址:
http://densepose.org/
pdf地址:
https://arxiv.org/pdf/1802.00434.pdf
2、SURREAL
SURREAL是一个新的大规模数据集,具有从人类运动捕捉数据的3D序列渲染的人的合成生成但逼真的图像。它包括超过600万帧以及地面人体真实姿势,深度图和分割蒙版。
详情地址:
https://www.di.ens.fr/willow/research/surreal/
pdf地址:
https://arxiv.org/pdf/1701.01370.pdf
3、UP-3D
UP-3D是一个数据集,用于将多个任务的不同数据集“联合起来”。尤其是使用最近引入的SMPLify方法,研究人员可以获得适合多个人体姿态数据集的高质量3D人体模型。该数据集结合了两个LSP数据集(11,000个训练图像和1,000个测试图像)和MPII-HumanPose数据集的单人部分(13,030个训练图像和2622个测试图像)。尽管可以使用自动分割方法来提供前景轮廓,但研究人员决定使用人工注释器来提高可靠性。
经过验证的拟合形成了带有5569个训练图像和1208个测试图像的初始UP-3D数据集。经过对语义身体部位分割,姿势估计和3D拟合的实验,改进后的3D拟合可以扩展初始数据集。
详情地址:
http://files.is.tuebingen.mpg.de/classner/up/
pdf地址:
https://arxiv.org/pdf/1701.02468.pdf
未经作者授权请勿进行转载搬运~