University-1652: A Multi-view Multi-source Benchmarkfor Drone-based Geo-localization

今天开始将进行更新我看到cv文章,为我做的论文总结

一)大学-1652:无人机地理定位的多视角多源基准

University-1652: A Multi-view Multi-source Benchmarkfor Drone-based Geo-localization

--Zhedong ZhengYunchao WeiYi Yang  (cs.CV 2020)

一、科学问题

1.1  本文所涉及科学问题

怎样基于可视内容的索引和检索,图像表示,地理定位以及图像重新计算,怎样以一种多视图数据集,以学习视图不变量特征,弥补视觉外观差异,跨视图的图像重建。

1.2  同行专家如何解决

运用两个视点图像对(通常是卫星和地面)进行基准测试,但观点数量有限会影响特征学习,或者运用深度学习的地理定位功能。

1.3  本文所解决的问题

本论文主要解决无人机视图目标定位(通过无人机视图图像预测目标位置)和无人机导航(给定一个卫星视图查询图像,驱动无人机到查询中感兴趣到区域),大学-1652有助于模型学习视点不变特征,在真实场景中具有良好的泛化能力。

1.4  本文解决方案效果

运用多视图多源基准(包含卫星,无人机和地面摄像头)使人机视图目标定位和无人机导航这两项新任务成为可能,验证学习的基线模型对通用特征的性能达到了竞争的水平,并证明了无人机视角目标定位和无人机导航定位的可行性,同时展示了多个查询可以导致更准确的目标定位。

二、研究内容

2.1  理论与方法介绍

通过多角度到训练数据,训练一个分类CNN作为基本模型,使用训练过的模型为查询和图库图像提取视觉特征,进行特征匹配实现快速的地理定位,采用多分支CNN提取高层特征,然后在高层特征上建立关系,建立三种不同模型(两个双分支和一个三分支CNN模型),并根据近年来图像语言双向检索技术的发展,采用基于实例丢失的分类丢失来训练基线。其主要思想是,一个共享的分类器可以强制不同来源的图像映射到一个共享的特征空间,本文采用采用ImageNet[6]上预训练的ResNet-50[8]作为脊骨模型。我们去除原ImageNet分类器,在池化层之后插入一个512-dim全连接层和一个分类层采用动量为0.9的随机梯度下降训练模型。

2.2  验证分析与实验效果

我们用通用特性学习特性来进行评估,如果AP(平均精度)高,即是达到比较好的效果。实验比较CNN的一般特征和自己获得的特征。习得的特征比一般特征短,但能产生更好的平均精度,本文中我们的基本模型在特征长度较短的情况下取得了较好的性能,验证了所提基线的有效性。同时我们对基线模型进行训练,提取三种数据的视觉特征。在搜索相关星视图像时,无人机视图查询优于地面视图查询。我们使用无人机视图查询的baselinemodel获得了58.49%的AP。

实验效果:本文的模型具有很好的泛化能力,可用于实际无人机视点图像的无人机视点定位。

三、论文存在问题及后续研究重点

3.1  论文存在问题

图像的大小会导致无人机视角定位和无人机导航的准确率,比如将大小最终特征的尺寸增加到512时性能会下降,因而推测较大的输入大小与ImageNet上的预训练权重大小有很大不同,没有共享权重模型情况下,性能会大幅的下降。

3.2  后续研究重点

未来将会继续研究无人机视野目标定位和无人机导航定位这两个任务更有效和高效的特点。

四、该问题相关研究成果

4.1  相关论文一

(1)题目:Lost in quantization: Improving particular object retrieval in large scaleimage databases

(2)作者介绍:James Philbin, Ondrej Chum, Michael Isard, Josef Sivic, and Andrew Zisserman

(3)摘要: 从大型数据库中检索可视对象的最新技术是通过受文本检索启发的系统实现的。这些方法的关键组成部分是使用高维描述符描述图像的局部区域,然后将其映射到从离散词汇中选择的“可视词”。

4.2  相关论文二

(1)题目:Cross-view image matchingfor geo-localization in urban environments

(2)作者介绍:Yicong Tian, Chen Chen, and Mubarak Shah

(3)摘要:在本文中,我们解决了跨视图图像地理定位的问题。具体而言,我们旨在通过在带有地理标记的鸟瞰图图像的参考数据库中找到匹配的图像来估计查询街道视图图像的GPS位置,反之亦然。为此,我们利用深度卷积神经网络(CNN)在图像分类和目标检测方面的巨大成功,提出了一种用于跨视图图像地理定位的新框架。首先,我们使用Faster R-CNN在查询图像和参考图像中检测建筑物。接下来,对于查询图像中的每个建筑物,我们使用在正匹配图像对和负图像对上均经过训练的暹罗网络从参考建筑物中检索$ k $最近邻居。为了为每个查询建筑物找到正确的NN,我们开发了一种基于主导集的有效的多个最近邻匹配方法。我们在一个由街景和鸟瞰图对组成的新数据集上评估了该框架。实验结果表明,与其他方法相比,该方法具有更好的地理定位精度。

4.3  相关论文三

(1)题目:CVM-net:Cross-view matching network for image-based ground-to-aerial geo-localization

(2)作者介绍:Sixing Hu, Mengdan Feng, Rang MH Nguyen, and Gim Hee Lee

(3)摘要:在给定查询地面视图图像的情况下,在具有地理参考的卫星地图上进行定位的问题非常有用,但由于视点的急剧变化而仍然具有挑战性。为此,在本文中,由于传统的图像描述符由于视点的剧烈变化而失败,因此我们在跨视图匹配网络(CVM-Net)上进行了早期工作的扩展,用于地对空图像匹配任务 。 特别是,我们在CVM-Net上显示了更广泛的实验结果和对网络体系结构的分析。 此外,我们提出了一种马尔可夫定位框架,该框架可在图像帧的视频流可用的情况下,增强图像帧之间的时间一致性以增强地理定位结果。 实验结果表明,我们提出的马尔可夫定位框架可以在新加坡数据集上的小误差内连续定位车辆。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容