作者:Haoqiang Fan,Hao Su
来源:CVPR 2017 (oral)
文章链接:https://arxiv.org/abs/1612.00603
源码链接:https://github.com/fanhqme/PointSetGeneration
摘要
本文研究了单幅图像的三维重建问题,通过设计的一种新颖高效的架构、loss函数和学习范式,最终生成一系列点云坐标并采用形状采样器来预测多个可信的三维点云。
网络结构
网络分为3个版本,输入都为二维图像I和一个用来使系统产生分布式输出的随机向量r,输出为N * 3的矩阵M。
- vanilla version
vanilla version分为Encoder(编码器)和Predictor(预测器),Encoder由卷积层和ReLU层组成,随机向量r干扰了图像I的预测,Predictor由全连接网络生成N个点的坐标。 - two prediction branch version
改网络由vanilla改进而来,在vanilla的基础上在预测器中加入了deconv(反卷积),由于全连接网络对复杂结构表现出良好的性能,但对于简单光滑的结构便显得有些繁重,故引入deconv结构来优化网络,使得参数变少,并且这种结构对光滑表面效果很好。
tips:其中添加了多个编码器和预测器之间的链接,以促进编码和预测之间的信息流。 - hourglass version
沙漏版本在前一个版本的基础上增加了递归循环,能更好的进行编解码操作,具有较强的表示能力,能较好的融合全局和局部信息。
评价标准
使用两种不同的评价标准,作为损失函数训练样本数据集。
-
Chamfer distance
CD算法会在另一个集合中找到最近的点,并将其距离的平方求和,其特点是能更好的保存物体的详细形状,详见--倒角距离。 -
Earth Mover`s distance
EMD算法可以用来测量两个分布之间的距离,能产生相较于CD算法更紧凑的结果,但有时会过度收缩局部结构,详见---EMD距离。
实验效果
上半部分为人造模型的重建效果,下半部分为真实数据的重建效果。
总结
- 优点
- 创建了一个新的点集生成架构。
- 设计了进行点集对比的损失函数。
- 解决了真实模型的不确定性问题。
- 不足
- 对于一部分与训练数据存在一定偏差的输入,该网络会用类似的东西来解释输入。
- 对于多个对象的组合,存在失真的输出。
参考
https://www.jianshu.com/p/8573abaeca94
https://www.jianshu.com/p/2b171e1b43d4