基于世界模型的深度强化学习

起源

世界模型[https://zhuanlan.zhihu.com/p/39928037]被lecun认为是弥补RL不足和通向下一代AI的要点。虽然Model-Based RL不是新概念,但是世界模型的构建方法,以及提升其泛化能力、注意力能力和记忆容量的设计还是颇具挑战性。

DaH和LSTM的发明人在今年五月提出了基于非监督学习训练大规模RNN,用于表征世界模型,并针对强化学习框架设计了智能体架构和简单实现。

本文目的是学习DaH本文的核心要点,记录复现过程。

论文摘要和核心思想

本文探索构建流行的强化学习环境之下的生成神经网络。本文的「世界模型」可以无监督方式进行快速训练,以学习环境的稀疏时空表征。通过使用提取自世界模型的特征作为智能体的输入,训练面向任务的小规模控制器,用简单的策略。甚至可以完全通过由世界模型本身生成的虚幻梦境训练本文的智能体,并把从中学会的策略迁移进真实环境之中。

We explore building generative neural network models of popular reinforcement learning environments. Our world modelcan be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using features extracted from the world model as inputs to an agent, we can train a very compact and simple policy that can solve the required task. We can even train our agent entirely inside of its own hallucinated dream generated by its world model, and transfer this policy back into the actual environment.

智能体的VMC架构

本研究中通过将智能体分为大型世界模型和小型控制器模型,来训练能够解决 RL 任务的大型神经网络。首先用无监督的方式训练一个大型神经网络V+M,来学习智能体世界的模型,然后训练小型控制器模型C来使用该世界模型执行任务。小型控制器使得算法聚焦于小搜索空间的信用分配问题,同时无需牺牲大型世界模型的容量和表达能力。通过世界模型来训练智能体,我们发现智能体学会一个高度紧凑的策略来执行任务。

  • Vision Model:采用Variational AutoEncoder,生成抽象、压缩的环境表征

  • Memory Model:采用RNN,可以结合历史信息,生成可预测未来状态的表征。

  • Controller:基于当下V的输出和M的预测,选择好的行动策略。

image.png
  • 下面的流程图展示了V、M和C如何与环境进行交互:首先每个时间步t原始的观察输入由V进行处理生成压缩后的z(t)。随后C的输入是z(t)和M的隐状态h(t)。随后C输出动作矢量a(t)影响环境。M以当前时刻的z(t)和a(t)作为输入,预测下一时刻的隐状态h(t+1)。
image.png

V模型采用VAE

环境在每一时间步上为智能体提供一个高维输入观测,这一输入通常是视频序列中的一个 2D 图像帧。VAE 模型的任务是学习每个已观测输入帧的抽象压缩表征z。

image.png

M模型采用RNN-MDN

让M模型预测未来,预测下一个时刻V产生的z 向量。由于自然中的很多复杂环境是随机的,我们训练 RNN 以输出一个概率密度函数 p(z) 而不是一个确定性预测z。

  • MDN是RNN的Mixed-Density-Network,输出的是预测的z的高斯混合模型。

  • h是hidden-state,用来表征智能体对自身行动所引发环境变化的预测。

  • T是temperature parameter,用来控制模型的不确定性,本文发现调节T对控制器C的训练有用。

image.png

C模型

在环境的展开过程中,控制器 (C) 负责决定动作进程以最大化智能体期望的累加奖励。在实验中,尽可能使 C 模型简单而小,并把 V 和 M 分开训练,从而智能体的绝大多数复杂度位于世界模型(V 和 M)之中。

复现过程

  • 复现参考:http://blog.otoro.net/2018/06/09/world-models-experiments/ 实现的复现,也有中文讨论 @ https://www.jiqizhixin.com/articles/2018-05-07-5,step-by-step 概述和复现的帖子。

  • 计算需求:笔记本能力估计不够,顶多用CPU复现训练好的controller结果,不能训练VMC,要用google云计算或者要考虑搭建本地的GPU/CPU训练服务器。参考计算要求:

    • V/M:P100 GPU

    • C: pure CPU instance with 64 cpu-cores (n1-standard-64) using CMA-ES

  • 依赖要求:目前版本的commit-e686342只能支持:python-3.5.2, gym-0.9.2(虽然说0.9.x都行,但是实测0.9.6就不行),tensorflow-1.8.0,numpy-1.13.3,box2d-2.3.2. 建议采用pip/pip3 install xxx==version_number 安装

参考资料

https://worldmodels.github.io/ 可交互论文

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容