RLToolbox使用流程

强化学习过程

  • agent向storage请求产生一条路径
  • storage产生路径过程中向agent输入state并由agent返回一个动作
  • storage收集产生的数据并交给agent来进行训练。

流程

  • pip install RLToolbox
  • 创建网络,选择baseline, storage=None, distribution
  • 创建agent
    <pre>
    storage = None
    agent = TrackingAgent(env, session, baseline, storage, distribution, net, pms)
    agent.storage = Storage(agent , env , baseline, pms)
    </pre>
  • 训练时执行:agent.learn(), 测试时执行agent内实现的测试函数(自己在agent里实现)

创建网络

  • 可以使用任何一种网络实现框架实现网络,例如
    tensorlayer, prettytensor。
  • 继承Network(from RLToolbox.network.network import Network)
  • 获得要训练的参数列表:
    <pre>self.var_list = [v for v in tf.trainable_variables() if v.name.startswith(scope)]</pre>
  • 实现asyc_parameters(self, session=None)函数
    告知agent如何进行网络参数的同步

创建agent

  • 可以直接使用RLToolbox.agent中的一种agent,也可以继承里面的一种agent并实现相应函数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 11,805评论 0 17
  • 沙岛落遗鸥。日落西山二郎头。杏花谭畔泛舟游,不休。东山日出在重游。 神松古麟州。把酒对月忆往昔。长安山头听风雨,未...
    孤独烈酒烧阅读 2,425评论 0 1
  • 我所体会到的热闹,不外乎过年那几天的万家灯火、户户团圆。工作以后在车上度过的第二个新年,依然想家人,依然想哭,但是...
    躲在角落的cc阅读 1,124评论 0 0