- 自我介绍
你好,我是北邮计算机学院的***,我的研究方向是计算机视觉中的深度估计方向,采用的方式是非监督学习。对深度学习和机器学习以及常用的数据结构和算法都比较熟悉。有过搭建神经网络的经验,但是在传统的机器学习这一领域的实践比较少。熟悉c++和python,平时的常用语言是python。 - 概述:本课题结合了三维几何(讲一下canny的edge辅助)以及深度学习的知识,使用视频序列为输入,同时估计出了场景的深度和相机的运行轨迹,没有采用最常用的监督学习中的ground truth最为监督,而是使用了三维场景中不同视角之间的几何约束来作为监督信号,大大降低了网络的学习成本,而且取得了当前非监督学习这一方向下的最好的结果。这个是我做的其中一帧的三维重建的效果图(展示效果图)。
- 姿态估计网络概述:这个课题的神经网络部分分为两部分,分别是深度估计网络和相机的姿态估计网络。其中姿态估计网络的结构比较简单,是使用的7层的全卷积网络,用来估计相机姿态的欧拉角以及位移向量组成的一个6参数的向量。因为设置的卷积核的尺寸是3X3的,并且padding为1,因此每一次卷积之后的尺寸都回变成输入尺寸的一半,为了尽量少的损失信息,卷积核的个数的设置的是逐层递增的,基本上是每次增加一倍。网络的最后一层的输出就是我们所想要的位姿向量了。
- 视差估计网络概述:视差估计这个网络的目的是估计两个相近的图像之间每个像素点的的视差,因为深度越近,视差也就越大,而我们的测试场景中的视差范围为0-200左右,因此我们的网络需要非常大的感受野,因此视差网络的主要设计思路就是通过各种方式来增加感受野。第一种方式是不断进行下采样,第二中方式是使用空洞卷积的方式,第三种则是使用了pspnet中提出的池化金字塔子网络,第四种是使用了传统的视差估计中使用的构造cost volume的方式来直接进行视察估计。通过这几中方式的改进,网络的效果还是不错的,在广为使用的三像素误差这一测量标准上,使用监督学习的算法现在能够达到1.5左右,我们的非监督网络可以达到6.0。我现在也在持续改进这一网络。
- 后续的改进思路:使用更合理的先验知识,使用迁移学习来进行改进。
使用非监督学习进行双目深度估计和相机位姿
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...