Niantic Labs的深度估计相关工作
https://github.com/nianticlabs
Monodepth2
ICCV 2019
Digging into Self-Supervised Monocular Depth Prediction
https://arxiv.org/abs/1806.01260
https://github.com/nianticlabs/monodepth2 3.4k stars
计算效率好于早期的MiDaS
每像素真值深度数据难以按比例获取。为了克服这一限制,自监督学习已经成为训练模型执行单目深度估计的一个有前途的替代方案。在本文中,我们提出了一组改进,与竞争的自监督方法相比,这些改进共同导致了深度图的定量和定性改进。
自监督单目训练的研究通常探索日益复杂的架构、损失函数和图像形成模型,所有这些最近都有助于弥补与完全监督方法的差距。我们发现,一个令人惊讶的简单模型,以及相关的设计选择,会导致更好的预测。特别地,我们提出(i)最小重投影损失,设计用于鲁棒地处理遮挡,(ii)减少视觉伪影的全分辨率多尺度采样方法,以及(iii)自动掩蔽损失,以忽略违反相机运动假设的训练像素。我们单独展示了每个组件的有效性,并在KITTI基准上展示了高质量、最先进的结果。
Learning Stereo from Single Images
ECCV 2020 Oral
https://github.com/nianticlabs/stereo-from-mono 331 stars
https://arxiv.org/abs/2008.01484
监督深度网络是在立体图像对中找到对应关系的最佳方法之一。与所有受监督的方法一样,这些网络在训练期间需要真值数据。然而,收集大量精确密集的通信数据非常具有挑战性。我们提出,没有必要对真值深度或甚至相应的立体对有如此高的依赖性。受单目深度估计的最新进展启发,我们从单个图像生成了可信的视差图。反过来,我们在精心设计的管道中使用这些有缺陷的视差图来生成立体训练对。以这种方式进行的训练使得可以将单个RGB图像的任何集合转换成立体训练数据。这大大减少了人力,无需收集真实深度或手动设计合成数据。因此,我们可以在像COCO这样的数据集上从头开始训练立体匹配网络,这些数据集以前很难用于立体匹配。通过大量实验,我们表明,当在KITTI、ETH3D和Middlebury上进行评估时,我们的方法优于使用标准合成数据集训练的立体网络。
Single Image Depth Prediction with Wavelet Decomposition
CVPR 2021
https://github.com/nianticlabs/wavelet-monodepth 205 stars
https://arxiv.org/abs/2106.02022
我们提出了一种高效预测单目图像精确深度的新方法。这种最佳效率是通过利用小波分解实现的,小波分解集成在完全可微的编码器-解码器架构中。我们证明,我们可以通过预测稀疏小波系数来重建高保真深度图。与之前的工作相比,我们表明小波系数可以在不直接监督系数的情况下学习。相反,我们只监督通过小波逆变换重建的最终深度图像。我们还表明,小波系数可以在完全自监督的场景中学习,而无需访问真值深度。最后,我们将我们的方法应用于不同的最先进的单目深度估计模型,在每种情况下,与原始模型相比,给出了类似或更好的结果,同时在解码器网络中需要不到一半的乘法加法。
还有好几个,未整理完