强化学习中的model-free和model-based算法

Model-based强化学习通过一个代理(agent)来尝试理解环境,并且建立模型来表示这个代理。这个模型希望学习到两个函数:

  1. 状态转移函数(transition function from states T:S\mapsto S
  2. 报酬函数(reward function R
    通过这个模型,代理可以进行根据它进行推导和行动。

Model-free强化学习则是直接学习策略(policy),相关的算法有Q-learning、policy gradient等。

一个简单的判断标准是:如果训练之后,代理必须通过预测下一个状态和报酬来采取行动,那么就是model-based强化学习算法,否则就是model-free强化学习算法.

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容