在正式讨论深度强化学习算之前, 我们先确定以下它的学习目标以及其评价方法。

学习目标与衡量方法
我们先介绍一个新的术语 Trajectory :
的意思是在状态
时,选择了
; 然后得到
.... 直到最后
。
在 中,
是环境给出来的反应, 我们无法控制。 我们可以控制的是Action
, 而Action 是由Policy生成的, 而Policy 则是由其参数
决定的。 因此,某个
出现的概率, 其实由
决定。
注意, 这里引出了强化学习的一个假设 “环境不变 Environment Stationary Assumption”, 该假设的意思是:对于同样的状态, 同样的Action
, 环境给出
的概率永远不变。在使用 RL解决现实问题时, 一定要注意这个假设能否满足,或者近似满足。
在介绍了上面的假设以后, 出现的概率可以写成

image.png
在等式右边, 是我们的Policy,关于 Policy 有基于 Observation 的和 State(Full Observation ) 之分,具体请查看 深度强化学习(2) 强化学习常用术语。
等式右边 是环境对我们在
时做了
的反馈(新状态
的分布)。
学习目标
有了这个表达式,我们就可以引出强化学习的目标:寻找Policy 最优的, 使得 Policy 获得Reward的期望最大。

强化学习目标
衡量标准

image.png
我们使用该Policy Reward 的期望来衡量 Policy 的好坏。 注意, 这里的目标是使得Reward 的期望最大,也就是希望获得更大的 。 而在监督学习时
往往代表 loss, 我们希望越小越好。