强化学习中on-policy和off-policy方法

什么是策略?

一个确定性策略定义了一个从行动空间到状态空间的函数\pi:A\mapsto S。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态s\in S下采取每一个动作a\in A的概率。

如何学习?

一共有两类方法:

  1. 通过估计动作-状态函数Q(s,a),预测未来折扣报酬的期望;
  2. 找到产生最大报酬的策略\pi=\pi(a|s)

On-policy和off-policy的区别?

On-policy和off-policy学习只与第一类方法有关。

区别是:

  • 在on-policy学习中,Q(s,a)是从策略产生的样本中学习,并使用它进行控制,边交互边学习。
  • 在off-policy学习中,Q(s,a)是从不同的行动中学习,例如随机行动,并不需要策略采取行动,致力于重用过去的经验样本。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容