强化学习过程
- agent向storage请求产生一条路径
- storage产生路径过程中向agent输入state并由agent返回一个动作
- storage收集产生的数据并交给agent来进行训练。
流程
pip install RLToolbox
- 创建网络,选择baseline, storage=None, distribution
- 创建agent
<pre>
storage = None
agent = TrackingAgent(env, session, baseline, storage, distribution, net, pms)
agent.storage = Storage(agent , env , baseline, pms)
</pre> - 训练时执行:agent.learn(), 测试时执行agent内实现的测试函数(自己在agent里实现)
创建网络
- 可以使用任何一种网络实现框架实现网络,例如
tensorlayer, prettytensor。 - 继承Network(from RLToolbox.network.network import Network)
- 获得要训练的参数列表:
<pre>self.var_list = [v for v in tf.trainable_variables() if v.name.startswith(scope)]</pre> - 实现asyc_parameters(self, session=None)函数
告知agent如何进行网络参数的同步
创建agent
- 可以直接使用RLToolbox.agent中的一种agent,也可以继承里面的一种agent并实现相应函数