基于深度强化学习和卷积神经网络的遥感飞机目标检测

基于深度强化学习和卷积神经网络的遥感飞机目标检测

如背景所述,遥感图像由于背景复杂、目标外观多样和方向任意等特点,现有基于深度神经网络的目标检测框架,直接定位方式会导致定位精度不高,定位框难以准确覆盖待检测物体。因此本文工作如下图所示,结合深度强化学习进行迭代地目标的定位,完成检测任务。

采用强化学习定位取代神经网络回归定位

本项研究利用深度强化学习对遥感图像中飞机目标进行定位,首次将深度强化学习与遥感目标检测结合:

将遥感目标定位转化为马尔科夫决策过程,采用先验经验训练智能体,收敛速度快且能够避免局部最优;

提出深度强化学习和分类网络结合的遥感目标检测方法(RL-CNN),具有较高检测精度。

一、    飞机定位马尔科夫决策过程

和定位智能体训练

目标定位过程从起始位置,在每个动作决策时刻,智能体基于决策策略从动作集合中选取动作,依据动作观察窗口(状态)进行变化转移,直至目标定位完成。这个序贯决策的状态转移序列,使用马尔科夫决策过程(Markov Decision Process,MDP)建模。

动作集合:包含六个动作,依据动作决策后的结果分为两类:窗口尺寸减小动作(左上、右上、左下、右下和中部)和终止整个定位过程的终止动作。

目标定位过程动作集合示意图

状态集合:目标检测过程的状态由两部分构成:定位智能体所观察到的图像当前区域和定位智能体的历史动作。

目标定位过程状态集合示意图

我们的工作中使用人类的先验知识引导定位智能体如何选择动作。采用如下的贪婪策略先验知识:在训练过程中已知真值区域,每次动作选择之前,对于6个动作计算6个IoU,使得定位智能体每次选择IoU最大的动作。

如下图所示,随着训练进行定位智能体表现也在逐渐提高,灰色和黄色折线均在上升。学徒学习指导的智能体(with knowledge agent,灰色折线)在评价指标数值和收敛速度上的表现,明显优于无学徒学习指导的智能体(without knowledge agent,黄色折线)。

学徒学习智能体、无学徒学习智能体和随机动作的得分情况

在下图所示测试图像中,贪婪策略每次都选择IoU提升最大的动作,最终取得IoU为0.73。而定位智能体虽然学习贪婪策略,但在最开始自主选择IoU较低(0.16)的动作,正是由于这样的动作选择,才使得定位智能体后续最终取得IoU0.92的结果。定位智能体不仅学会了贪婪策略所指导的动作选择方式,而且从学习中发现并修正了贪婪策略这位老师的某些经验错误,提高了定位精度。这正如AlphaGo,它不仅学会了下棋,还能在学习中很好修正人类棋谱的经验错误。

贪婪策略和定位智能体同一幅图像的不同定位过程对比

训练得到的定位智能体对于原始遥感图像中的候选区图像目标进行定位,定位结果如下图所示。对于不同位置、尺度和型号的飞机,定位智能体均有较高的定位鲁棒性。

不同图像的定位结果

在这里我们通过基于强化学习训练的智能体得到了飞机目标的定位结果,下个部分将介绍遥感飞机目标整体的检测流程。

二、遥感飞机目标检测流程设计和验证

传统基于深度学习的目标检测流程,在预测目标位置的同时得到预测区域类别概率。前面提出的强化学习定位方法完成了定位任务,而没有进行定位区域分类,无法适用于传统检测框架。因此我们重新设计如下的飞机目标检测流程,对于定位智能体定位结果,由深度卷积网络进行分类打分,完成整个遥感飞机目标检测任务。

RL-CNN遥感图像飞机目标检测框架

我们将RL-CNN和单一基于深度强化学习的检测算法在测试图像中进行对比。如下图所示,单一基于深度强化学习的检测算法只定位到了个别飞机和部分飞机的机翼机尾,并未定位到大部分飞机任何部分。而RL-CNN检测方法得益于候选框提取、学徒学习指导训练和CNN出色分类能力,无需固定动作数目,能够成功地检测出遥感图像中飞机目标。

单一基于深度强化学习检测算法(左图)和

RL-CNN(右图)检测结果对比

同时我们将RL-CNN与现阶段较好的检测算法HOG-SVM、Multi-model Fast Regions CNN (MFCNN)和Faster Regions CNN(Faster-RCNN)进行比较。

我们使用各方法的Precision Rate(PR)和Recall Rate(RR)作为评价指标。Precision Rate为准确率,即找到的正确飞机目标占所有找到的目标比例。Recall Rate为召回率,即找到的正确飞机目标占所有正确飞机目标比例。Recall Rate相同时,Precision Rate越高检测效果越好,通过下图的Precision- Recall曲线可知,RL-CNN表现优于其他的检测算法。

不同检测算法的Precision-Recall曲线

MFCNN、Faster-RCNN和RL-CNN均是基于卷积神经网络的检测框架,得益于CNN优秀的特征提取和泛化能力,它们能够高效地检测出不同尺度和位置的飞机目标。RL-CNN中基于强化学习训练的定位智能体,使用自顶向下的搜索策略迭代地定位飞机,RL-CNN产生的检测结果更贴合于真值目标。下图为RL-CNN的检测结果。

RL-CNN检测结果

后记

本文飞机目标检测框架为候选区提取+目标精细化定位/分类的流程,由于独立的预提取方法会消耗较多运行时间,整体运行效率有待提高。

我们在未来工作中将会探索如何优化目标预提取方法以减少运行时间,尝试融合深度强化学习网络和卷积分类网络简化检测框架,并将检测框架应用于舰船等横纵比较大的目标检测任务中。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容