Robust Consistent Video Depth Estimation：鲁棒一致的视频深度估计网络

Robust Consistent Video Depth Estimation 论文链接：https://arxiv.org/abs/2012.05901

摘要：我们提出了一种用于从单目视频中估计一致的密集深度图和相机姿态的算法。我们以卷积神经网络的形式集成了基于学习的深度先验知识，该算法经过训练可用于单图像深度估计，并通过几何优化来估计平滑的相机轨迹以及详细而稳定的深度重建。我们的算法结合了两种互补技术：（1）用于低频大规模对准的柔性变形样条线和（2）用于精细深度细节的高频对准的几何感知深度过滤。与现有方法相比，我们的方法不需要照相机姿势作为输入，并且可以实现强大的重建，以应对包含大量噪声，抖动，运动模糊和滚动快门变形的具有挑战性的手持式手机拍摄。在深度和姿态估计方面，我们的方法在数量上都超过了Sintel基准上的最新技术，并且在各种wild数据集上都获得了令人满意的定性结果。

注：本文的一个重要思想就是深度估计等价于重建，从重建的角度来做深度估计；

【介绍】

这篇文章的目的是为了在视频场景下生成稳定的深度估计结果，其提出的算法可以在一个单目视频中估计出一致的深度图和相机位姿。文章首先会使用MiDas为视频中的单帧图像做初始深度估计（主要用于提供深度scale参数），以及使用Ceres Library上计算相机的初始位姿信息。之后再在输入的视频序列上使用在线finetune形式交替进行深度估计结果与相机位姿优化。在上面的finetune优化中使用到了一个几何优化过程去生成稳定平滑地相机移动轨迹（表征为相机关联的内外参数）与深度细节保存完好且稳定的深度结果。在上面提到的相机位姿优化与最后深度估计生成过程包含两个互补的技术（分别对低频区域和高频区域）：

1）使用灵活的变化样条函数去实现图像内低频区域的区块对齐；

2）使用一个几何感知深度滤波器在不同的视频帧上去对齐高频的细节部分。

相比之前的方法（《Consistent Video Depth Estimation》Consistent Video Depth Estimation）

1、首先，以单目视频为输入，对一对（潜在的远距离）帧进行采样，并使用预先训练的单图像深度估计模型估计深度，以获得初始深度图。

2、对这对图像，使用光流法前后向一致性检查建立对应关系。接着，利用这些对应关系和相机位置提取三维几何约束。

3、将三维几何约束分解为两个损失：空间损失和视差损失。通过标准反向传播，用这两个损失对深度估计网络的权重进行微调，以最小化多帧几何不一致性误差。在微调阶段之后，我们从视频中得到的最终深度估计结果是从微调模型中计算出来的。

总的来说，该Consistent Video Depth Estimation思想是结合各个方法的优势。使用已经存在的单图片深度估计网络去估计可能的深度，然后使用传统的重建方法提取几何约束来微调该网络（即传统的方法与基于学习的方法结合），所以这个网络会产生几何上一致性的深度图。主要分为两个阶段：

预处理阶段：从视频帧中提取出几何约束，使用传统的方法sfm，计算出内外参，使用初始网络产生初始深度图。

测试训练阶段：微调网络。

但是相比之下该文章并不需要相机的位姿信息作为输入，在文章算法中对其进行预测。同时文章方法的设计是源自于Consistent Video Depth Estimation的。同时Consistent Video Depth Estimation存在以下局限性：

1.姿势

该方法目前依赖 COLMAP，来基于单目视频估计相机位姿。而在难度较大的场景中，如相机平移有限及动态模糊的情况下，COLMAP 可能无法生成靠谱的稀疏重建结果和相机位姿估计。

较大的位姿误差也会对该方法的输出结果造成极大的负面影响，因此这限制了该方法在此类视频中的应用。

将基于学习的位姿估计和该研究提出的方法结合起来，或许是一个不错的研究方向。

2.动态运动

该方法支持包含温和运动的视频，但如果运动较为激烈则该方法会出现问题。

3.光流

该方法依赖 FlowNet2 来构建几何约束。使用前后向传播一致性检查并过滤掉不可靠的光流，但这也可能出现错误。这时该方法无法输出正确的深度。研究者尝试使用稀疏光流，但效果并不好。

4.速度

该方法利用视频中所有帧提取几何约束，因此不支持在线处理。例如，对于一个包含 244 帧、708 个采样光流对的视频来说，该方法的测试时训练步耗时约 40 分钟。

【算法-Pipline】

上图可知，主要是以下三个部分：

1、使用MiDas作为单帧深度估计方法，从而估计得到单帧图像的初始深度信息。使用Ceres Library从视频序列中去计算初始相机位姿；

2、使用finetune训练的形式从输入的视频序列中交替优化深度估计结果与相机位姿信息，在相机位姿估计过程中使用样条差值的形式实现深度对齐，从而使得相机位姿估计的结果稳定；

3、使用几何感知的深度滤波器在多帧之间进行滤波保留和优化深度估计中的高频信息；

《Robust Consistent Video Depth Estimation》论文笔记_m_buddy的博客-CSDN博客

Robust Consistent Video Depth Estimation：鲁棒一致的视频深度估计网络

推荐阅读更多精彩内容