摘要
- 基于PointNet++,直接处理3D点云数据预测输出3D手势
关键
-
PointNet++
接受深度图作为输入,转换为点云,并下采样为N个点。每个点取坐标值和曲面法线向量作为初始特征输入,
,使用PointNet++提取特征
-
Oriented Bounding Box(OBB) 归一化视角
OBB是一个紧贴输入点云的边界框,OBB的方向由点云的PCA主成分分析得到(根据特征值降序排序)
为p在摄像机坐标系下的坐标,
为OBB归一化后的坐标,
为3D旋转矩阵,
为形心坐标,
为边界框的最大边长。
所以,为最终的归一化坐标
手势回归网络
-
降维表示(瓶颈层)即增加几何约束
使用PointNet++提取1024维全局特征向量,通过三层全连接层映射为F-dim(降维表示即增加约束)
-
参考DeepPrior网络结构设计预测网络,损失函数为
-
即点云降维后的特征向量。
为归一化后的真值,
为PointNet++,将真值经PointNet++网络提取特征降维与
做loss
在训练阶段
其中
为最终的归一化坐标值,
基于训练集的主成分,
为均值
在测试阶段
所以
即得到最终预测的摄像机坐标
第二项为
正则化项
-
指尖修正网络
选取初始预测点的k-近邻点作为输入,归一化输入到PointNet++修正3D位置。