读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

这篇论文是飞飞出品,你知道的,imageNet的光环。论文主要是通过深度增强学习让机器人在房间里面找东西。

那么对于基于DRL的算法,确实存在论文指出的的缺点:1、对目标的泛化能力比较弱;2、数据的低效性,无法从模拟环境转移到真实世界(deepmind在今年发表了一篇论文,用transfer learning的办法实现从模拟环境到真实环境)。

论文号称有了四个方面的改进:

1、收敛更快

2、具备泛化目标和场景

3、仅仅进行finetuning就能把网络应用于实际世界

4、end to end

为了达到这些目的,他们首先是开发了一个高质量的3D效果的模拟环境 The House Of inteRactions

(AI2-THOR):

1、有即插即用的架构,方便各种环境的组合。能够支持运动和物体在外力作用相应变化。结合了unity3D物理引擎和深度学习框架。

2、通过物理引擎渲染的图片进入深度学习框架中,而深度学习的框架可以根据视觉输入发出控制命令,把命令传递给物理引擎。物理引擎和学习框架是直接通讯的。

3、虚拟环境的物体和实际环境中要尽可能的细节一致

4、创建基于室内卧室、客厅、厨房和卫生间32个不同的场景,平均每个场景容纳了68个物体

(看起来真是不错,等开源)

算法Target-driven Visual Navigation in Indoor Scenes主要思路:

1、问题和目标

最少的步骤让机器人走到目标图片所在的场景。记住一点:算法最后建立的模型能够让agent通过2D的照片学习到3D环境中的行动。

2、问题的构想

论文认为,我们之前利用drl解决问题,都是一点点学会规则,其实从某种意义上来说,就是把目标硬编码在网络参数中,所以,论文采用的办法是把目标作为输入引人网络,而不是硬编码到网络参数中。所以,算法提出的网络是把state和target goal都当成输入,这样就泛化了目标,解决了更换目标就要重新训练网络的问题。即使即使目标没有被训练过,也能使用

3、搭建环境

动作空间:四个动作输出,前进、后退、左转、右转。在实际环境中,输出增加了高斯噪声

步长N(0,0.01),角度N(0,1.0)

观察和目标:

观察和目标都是基于agent的第一视角的RGB相机拍摄的

奖赏设置:

到达目标,10分的奖励,为了鼓励最短路径,每过一段时间给予-0.01的惩罚

4、Model:

因为增加了目标输入,策略函数就变成了这样:

g是goal。(这是整篇论文中唯一出现的公式,感觉不是在看DRL的论文,呵呵)

对于网络来说,输入是两张图片,一个是当前的state,另外一个是目标。网络的任务是搜索state和goal之间的空间联系,也就是说必须有地理空间的各个照片和空间联系,所以所有环境的的信息是要保留在网络中的。论文应用了一个深度siamese网络,来完成state到整个环境的映射,从图4中可以看出来,我没怎么看明白,于是找了论文中列出来的参考论文,Yannlecun大牛的,网络架构如下:

看这个图应该能对所谓深度siamese网络加深了解。

5、训练

采用了A3C的算法,主要是考虑异步并行。

6、网络架构:


网络的最底层是利用imagenet预先训练好的ResNet-50,基于224*224*3的输入产生2048维的输出,采用4桢连续的图像作为状态输入,额外的goal的图像也是同样处理。ResNet-50的参数在后面的训练中是freezed的。两个输出最后合并成512维的向量,然后流经场景层,(这部分算法是没有给出的,大家可以自己考虑,我理解还是图像差别比较),最后输出agent的动作。

上一张更形象的图

论文的主要算法就是这些了,后面的主要是一些测试数据,比较部分就不提了。论文还做了一个测试,就是利用真实的机器人来验证他们的想法。实验证明基于模拟环境测试的网络可以让真实的机器人收敛速度快44%。

个人感觉:论文提出的那些问题确实是最主要的问题,而且也很宏大,但是论文本身提出的解决方案,还是有一些trick的(当然我的水平还是无法企及的,不要被我的看法误导)。我觉得模拟环境值得期待,从模拟环境到真实机器人的探索也是一个亮点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容