摘要
提出一个新颖的模型---PointNet,直接以3D点云坐标作为输入,在满足输入点云排列不变性(允许任意数量输入且输出不以输入点的顺序所改变条件下,提取点云所代表物体的特征信息。
介绍
-
三维深度学习
-
多视角2D图片表示三维物体
-
使用体素构建物体三维模型, 使用3DCNN提取特征
-
-
点云(PointNet): 一组点坐标(x,y,z)构成的集合
- 点无序性
- 点数量不确定性
- 非结构化数据,点云是分布在空间中的XYZ点。无法使用传统CNN提取特征
- 点噪声
- 点缺失
- 刚体旋转会使点云发生大幅变化,但两个不同的点云其实代表同一物体
-
PointNet
输入一个点云(无序点坐标集),包含n个点,每个点代表一个向量,该向量可以只包含坐标(x,y,z),也可以包含更多信息,例如曲面法线向量(nx, ny, nz),
输出从这个点云中提取的特征信息
关键
-
对称方法
输出不以输入顺序改变而变化的函数,例如a+b = b + a, 论文中使用了MaxPool
变换矩阵固定视角解决平移/旋转不变性问题 — STN网络
-
网络结构
多层的1x1卷积(视野域始终基于单点)提取单点坐标特征,每个点1024维。
接着通过MaxPool,与传统的MaxPool不同,该MaxPool操作是在每一维特征维度上取最大响应值(每个点有1024维特征,共N个点,在每一维上遍历N个点,取最大值作为最终输出,所以最终得到1x1024的特征向量),相当于综合了全局信息
最终输出1024维特征信息
不足
PointNet提取的是每一个独立的点的特征描述以及全局点云的特征描述,并没有考虑局部特征和结构约束,此外,只通过Max提取全局信息也不是那么可靠。