登录注册写文章

强化学习中on-policy和off-policy方法

强化学习中on-policy和off-policy方法

什么是策略？

一个确定性策略定义了一个从行动空间到状态空间的函数 $\pi:A\mapsto S$ 。在实际应用中，一个策略的输出常常是一个概率分布，表示在状态 $s\in S$ 下采取每一个动作 $a\in A$ 的概率。

如何学习？

一共有两类方法：

通过估计动作-状态函数 $Q(s,a)$ ，预测未来折扣报酬的期望；
找到产生最大报酬的策略 $\pi=\pi(a|s)$ 。

On-policy和off-policy的区别？

On-policy和off-policy学习只与第一类方法有关。

区别是：

在on-policy学习中， $Q(s,a)$ 是从策略产生的样本中学习，并使用它进行控制，边交互边学习。
在off-policy学习中， $Q(s,a)$ 是从不同的行动中学习，例如随机行动，并不需要策略采取行动，致力于重用过去的经验样本。

最后编辑于：2019.04.18 16:05:34

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,720评论 0赞 25
深度强化学习（理论篇）—— 从 Critic-only、Actor-only 到 Actor-...
来源于 Tangowl 的系列文章 https://blog.csdn.net/lipengcn/article/...
TangowL阅读 6,251评论 0赞 4

Neural Fictitious Self Play——从博弈论到深度强化学习
Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist...
朱小虎XiaohuZhu阅读 24,388评论 2赞 18
强化学习中的关键概念
原文链接：rl_intro[https://spinningup.openai.com/en/latest/spi...
博士伦2014阅读 4,559评论 2赞 0
（365-53）孩子强烈的学习愿望从哪来
《大学》中讲道：人莫知其子之恶,莫知其苗之硕。意思是说，人们看不到自己孩子的缺点，不满足自己田地禾苗的...
一路修行做老师阅读 805评论 0赞 3

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文