Robust Consistent Video Depth Estimation:鲁棒一致的视频深度估计网络

Robust Consistent Video Depth Estimation 论文链接:https://arxiv.org/abs/2012.05901

摘要:我们提出了一种用于从单目视频中估计一致的密集深度图和相机姿态的算法。我们以卷积神经网络的形式集成了基于学习的深度先验知识,该算法经过训练可用于单图像深度估计,并通过几何优化来估计平滑的相机轨迹以及详细而稳定的深度重建。我们的算法结合了两种互补技术:(1)用于低频大规模对准的柔性变形样条线和(2)用于精细深度细节的高频对准的几何感知深度过滤。与现有方法相比,我们的方法不需要照相机姿势作为输入,并且可以实现强大的重建,以应对包含大量噪声,抖动,运动模糊和滚动快门变形的具有挑战性的手持式手机拍摄。在深度和姿态估计方面,我们的方法在数量上都超过了Sintel基准上的最新技术,并且在各种wild数据集上都获得了令人满意的定性结果。

注:本文的一个重要思想就是深度估计等价于重建,从重建的角度来做深度估计;

【介绍】

这篇文章的目的是为了在视频场景下生成稳定的深度估计结果,其提出的算法可以在一个单目视频中估计出一致的深度图和相机位姿。文章首先会使用MiDas为视频中的单帧图像做初始深度估计(主要用于提供深度scale参数),以及使用Ceres Library上计算相机的初始位姿信息。之后再在输入的视频序列上使用在线finetune形式交替进行深度估计结果与相机位姿优化。在上面的finetune优化中使用到了一个几何优化过程去生成稳定平滑地相机移动轨迹(表征为相机关联的内外参数)与深度细节保存完好且稳定的深度结果。在上面提到的相机位姿优化与最后深度估计生成过程包含两个互补的技术(分别对低频区域和高频区域)

1)使用灵活的变化样条函数去实现图像内低频区域的区块对齐;

2)使用一个几何感知深度滤波器在不同的视频帧上去对齐高频的细节部分。

相比之前的方法(《Consistent Video Depth Estimation》Consistent Video Depth Estimation


1、首先, 以单目视频为输入,对一对(潜在的远距离)帧进行采样,并使用预先训练的单图像深度估计模型估计深度,以获得初始深度图。

2、对这对图像,使用光流法前后向一致性检查建立对应关系。接着,利用这些对应关系和相机位置提取三维几何约束。

3、将三维几何约束分解为两个损失:空间损失和视差损失。通过标准反向传播,用这两个损失对深度估计网络的权重进行微调,以最小化多帧几何不一致性误差。 在微调阶段之后,我们从视频中得到的最终深度估计结果是从微调模型中计算出来的。

总的来说,该Consistent Video Depth Estimation思想是结合各个方法的优势。使用已经存在的单图片深度估计网络去估计可能的深度,然后使用传统的重建方法提取几何约束来微调该网络(即传统的方法与基于学习的方法结合),所以这个网络会产生几何上一致性的深度图。主要分为两个阶段:

预处理阶段:从视频帧中提取出几何约束,使用传统的方法sfm,计算出内外参,使用初始网络产生初始深度图。

测试训练阶段:微调网络。

       但是相比之下该文章并不需要相机的位姿信息作为输入,在文章算法中对其进行预测。同时文章方法的设计是源自于Consistent Video Depth Estimation的。同时Consistent Video Depth Estimation存在以下局限性:

1.姿势

该方法目前依赖 COLMAP,来基于单目视频估计相机位姿。而在难度较大的场景中,如相机平移有限及动态模糊的情况下,COLMAP 可能无法生成靠谱的稀疏重建结果和相机位姿估计。

较大的位姿误差也会对该方法的输出结果造成极大的负面影响,因此这限制了该方法在此类视频中的应用。

将基于学习的位姿估计和该研究提出的方法结合起来,或许是一个不错的研究方向。

2.动态运动

该方法支持包含温和运动的视频,但如果运动较为激烈则该方法会出现问题。

3.光流

该方法依赖 FlowNet2 来构建几何约束。使用前后向传播一致性检查并过滤掉不可靠的光流,但这也可能出现错误。这时该方法无法输出正确的深度。研究者尝试使用稀疏光流,但效果并不好。

4.速度

该方法利用视频中所有帧提取几何约束,因此不支持在线处理。例如,对于一个包含 244 帧、708 个采样光流对的视频来说,该方法的测试时训练步耗时约 40 分钟。

【算法-Pipline】


上图可知,主要是以下三个部分:

1、使用MiDas作为单帧深度估计方法,从而估计得到单帧图像的初始深度信息。使用Ceres Library从视频序列中去计算初始相机位姿;

2、使用finetune训练的形式从输入的视频序列中交替优化深度估计结果与相机位姿信息,在相机位姿估计过程中使用样条差值的形式实现深度对齐,从而使得相机位姿估计的结果稳定;

3、使用几何感知的深度滤波器在多帧之间进行滤波保留和优化深度估计中的高频信息;

《Robust Consistent Video Depth Estimation》论文笔记_m_buddy的博客-CSDN博客

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容