代码已在Github上开源
本人用pytorch实现了CVPR2020 论文 Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data 。主要有三部分组成: DetNet, Shape Estimation, Pose Estimation.
DetNet
由128*128尺寸的彩色图像,检测出21个手部关键点的,相对三维位置
Shape Estimation
由21个关键点位置,算出骨骼长度,结合MANO手模型参数,利用Levenberg–Marquardt优化算法,求解出10个shape参数
Pose Estimation
与原论文中使用IKNet这一神经网络进行反解不同, 本项目采用数学解析求解的方式,求解出pose 参数
实验结果
DetNet训练验证
在数据集上的量化效果
Dataset | DetNet(paper) | DetNet(this project) | DetNet+IKNet(paper) | DetNet+AIK(this project) |
---|---|---|---|---|
RHD | - | 0.9339 | 0.856 | 0.9301 |
STB | 0.891 | 0.8744 | 0.898 | 0.8647 |
DO | 0.923 | 0.9378 | 0.948 | 0.9392 |
EO | 0.804 | 0.9270 | 0.811 | 0.9290 |
其他
实现有些简陋,如果有bug,欢迎在github上提出issue讨论