深度强化学习(3) 学习目标与评价方法


在正式讨论深度强化学习算之前, 我们先确定以下它的学习目标以及其评价方法。

学习目标与衡量方法

我们先介绍一个新的术语 Trajectory \tau :

\tau = {s}_{1}, {a}_{1}, \ldots, {s}_{T}, {a}_{T}

\tau 的意思是在状态 s_{1} 时,选择了a_{1}; 然后得到 s_{2} .... 直到最后 T

\tau 中, s 是环境给出来的反应, 我们无法控制。 我们可以控制的是Action a, 而Action 是由Policy生成的, 而Policy 则是由其参数 \theta决定的。 因此,某个 \tau 出现的概率, 其实由 \theta 决定。

注意, 这里引出了强化学习的一个假设 “环境不变 Environment Stationary Assumption”, 该假设的意思是:对于同样的状态s_{t}, 同样的Action a_{t}, 环境给出s_{t+1} 的概率永远不变。在使用 RL解决现实问题时, 一定要注意这个假设能否满足,或者近似满足。

在介绍了上面的假设以后, \tau 出现的概率可以写成

image.png

在等式右边, \pi_{\theta}(a_{t}|s_{t}) 是我们的Policy,关于 Policy 有基于 Observation 的和 State(Full Observation ) 之分,具体请查看 深度强化学习(2) 强化学习常用术语

等式右边p(s_{t+1}|s_{t}, a_{t}) 是环境对我们在s_{t} 时做了 a_{t} 的反馈(新状态 s_{t+1} 的分布)。

学习目标

有了这个表达式,我们就可以引出强化学习的目标:寻找Policy 最优的\theta, 使得 Policy 获得Reward的期望最大。

强化学习目标

衡量标准

image.png

我们使用该Policy Reward 的期望来衡量 Policy 的好坏。 注意, 这里的目标是使得Reward 的期望最大,也就是希望获得更大的 J(\theta)。 而在监督学习时J(\theta) 往往代表 loss, 我们希望越小越好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容