这篇论文是飞飞出品,你知道的,imageNet的光环。论文主要是通过深度增强学习让机器人在房间里面找东西。
那么对于基于DRL的算法,确实存在论文指出的的缺点:1、对目标的泛化能力比较弱;2、数据的低效性,无法从模拟环境转移到真实世界(deepmind在今年发表了一篇论文,用transfer learning的办法实现从模拟环境到真实环境)。
论文号称有了四个方面的改进:
1、收敛更快
2、具备泛化目标和场景
3、仅仅进行finetuning就能把网络应用于实际世界
4、end to end
为了达到这些目的,他们首先是开发了一个高质量的3D效果的模拟环境 The House Of inteRactions
(AI2-THOR):
1、有即插即用的架构,方便各种环境的组合。能够支持运动和物体在外力作用相应变化。结合了unity3D物理引擎和深度学习框架。
2、通过物理引擎渲染的图片进入深度学习框架中,而深度学习的框架可以根据视觉输入发出控制命令,把命令传递给物理引擎。物理引擎和学习框架是直接通讯的。
3、虚拟环境的物体和实际环境中要尽可能的细节一致
4、创建基于室内卧室、客厅、厨房和卫生间32个不同的场景,平均每个场景容纳了68个物体
(看起来真是不错,等开源)
算法Target-driven Visual Navigation in Indoor Scenes主要思路:
1、问题和目标
最少的步骤让机器人走到目标图片所在的场景。记住一点:算法最后建立的模型能够让agent通过2D的照片学习到3D环境中的行动。
2、问题的构想
论文认为,我们之前利用drl解决问题,都是一点点学会规则,其实从某种意义上来说,就是把目标硬编码在网络参数中,所以,论文采用的办法是把目标作为输入引人网络,而不是硬编码到网络参数中。所以,算法提出的网络是把state和target goal都当成输入,这样就泛化了目标,解决了更换目标就要重新训练网络的问题。即使即使目标没有被训练过,也能使用
3、搭建环境
动作空间:四个动作输出,前进、后退、左转、右转。在实际环境中,输出增加了高斯噪声
步长N(0,0.01),角度N(0,1.0)
观察和目标:
观察和目标都是基于agent的第一视角的RGB相机拍摄的
奖赏设置:
到达目标,10分的奖励,为了鼓励最短路径,每过一段时间给予-0.01的惩罚
4、Model:
因为增加了目标输入,策略函数就变成了这样:
g是goal。(这是整篇论文中唯一出现的公式,感觉不是在看DRL的论文,呵呵)
对于网络来说,输入是两张图片,一个是当前的state,另外一个是目标。网络的任务是搜索state和goal之间的空间联系,也就是说必须有地理空间的各个照片和空间联系,所以所有环境的的信息是要保留在网络中的。论文应用了一个深度siamese网络,来完成state到整个环境的映射,从图4中可以看出来,我没怎么看明白,于是找了论文中列出来的参考论文,Yannlecun大牛的,网络架构如下:
看这个图应该能对所谓深度siamese网络加深了解。
5、训练
采用了A3C的算法,主要是考虑异步并行。
6、网络架构:
网络的最底层是利用imagenet预先训练好的ResNet-50,基于224*224*3的输入产生2048维的输出,采用4桢连续的图像作为状态输入,额外的goal的图像也是同样处理。ResNet-50的参数在后面的训练中是freezed的。两个输出最后合并成512维的向量,然后流经场景层,(这部分算法是没有给出的,大家可以自己考虑,我理解还是图像差别比较),最后输出agent的动作。
上一张更形象的图
论文的主要算法就是这些了,后面的主要是一些测试数据,比较部分就不提了。论文还做了一个测试,就是利用真实的机器人来验证他们的想法。实验证明基于模拟环境测试的网络可以让真实的机器人收敛速度快44%。
个人感觉:论文提出的那些问题确实是最主要的问题,而且也很宏大,但是论文本身提出的解决方案,还是有一些trick的(当然我的水平还是无法企及的,不要被我的看法误导)。我觉得模拟环境值得期待,从模拟环境到真实机器人的探索也是一个亮点。