亮点:目的是为了在不使用模板且没有ground truth的情况下从单张图片重构3D模型。
Photogeometric autoencoding:模型整体结构就是一个auto encoder,中间的encoded vector就是深度图,反射率(纹理)图,光照方向和视点。文中提到光照+反射率有可能被误解为图像的固有纹理,但是反射率图一般来说都是左右对称的,所以可以利用对称性用来解决这个问题。另外,文中还提到,脸上的阴影事实上是可以提供一定的3D信息的,所以作者也尝试使用深度图来预测阴影(shape from shading)。
整体流程就是先通过反射率图,深度图,光照方向生成标准姿态下的3D重建图像,然后再结合视点和深度图来生成原始图片方向上的2D重建。
主要分为两个部分:
1.重建损失
将重建损失建模为拉普拉斯分布(为啥用这个分布?高斯分布不行吗?或者如果不用分布的话不行吗?),然后引入了一个可学习的confidence map,用于判断图像中哪些部分是对称的,哪些部分是不对称的,从而对每个像素施加不同的weight
2.感知损失
计算原始图片和生成图片通过VGG16中间层输出的特征的差别。
参考文章:
https://blog.csdn.net/huitailangyz/article/details/107827485
https://blog.csdn.net/g11d111/article/details/106975135