登录注册写文章

深度强化学习（3）学习目标与评价方法

深度强化学习（3）学习目标与评价方法

在正式讨论深度强化学习算之前，我们先确定以下它的学习目标以及其评价方法。

学习目标与衡量方法

我们先介绍一个新的术语 Trajectory $\tau$ :

$\tau = {s}_{1}, {a}_{1}, \ldots, {s}_{T}, {a}_{T}$

$\tau$ 的意思是在状态 $s_{1}$ 时，选择了 $a_{1}$ ; 然后得到 $s_{2}$ .... 直到最后 $T$ 。

在 $\tau$ 中， $s$ 是环境给出来的反应，我们无法控制。我们可以控制的是Action $a$ , 而Action 是由Policy生成的，而Policy 则是由其参数 $\theta$ 决定的。 因此，某个 $\tau$ 出现的概率，其实由 $\theta$ 决定。

注意，这里引出了强化学习的一个假设 “环境不变 Environment Stationary Assumption”，该假设的意思是：对于同样的状态 $s_{t}$ ，同样的Action $a_{t}$ ，环境给出 $s_{t+1}$ 的概率永远不变。在使用 RL解决现实问题时，一定要注意这个假设能否满足，或者近似满足。

在介绍了上面的假设以后， $\tau$ 出现的概率可以写成

image.png

在等式右边, $\pi_{\theta}(a_{t}|s_{t})$ 是我们的Policy，关于 Policy 有基于 Observation 的和 State（Full Observation ）之分，具体请查看深度强化学习（2）强化学习常用术语。

等式右边 $p(s_{t+1}|s_{t}, a_{t})$ 是环境对我们在 $s_{t}$ 时做了 $a_{t}$ 的反馈(新状态 $s_{t+1}$ 的分布)。

学习目标

有了这个表达式，我们就可以引出强化学习的目标：寻找Policy 最优的 $\theta$ ，使得 Policy 获得Reward的期望最大。

强化学习目标

衡量标准

image.png

我们使用该Policy Reward 的期望来衡量 Policy 的好坏。注意，这里的目标是使得Reward 的期望最大，也就是希望获得更大的 $J(\theta)$ 。而在监督学习时 $J(\theta)$ 往往代表 loss，我们希望越小越好。

最后编辑于：2022.02.11 23:33:50

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow（第二版）》第1...
（第二部分：深度学习）第10章使用Keras搭建人工神经网络[https://www.jianshu.com/p...
SeanCheney阅读 4,615评论 2赞 5
深度强化学习（2）强化学习常用术语
本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning[http...
数科每日阅读 2,879评论 0赞 3

强化学习基础知识详解
强化学习（Reinforcement Learning）强化学习基本概念强化学习四要素：状态(state)、动...
xbo阅读 39,320评论 2赞 22
Keras深度强化学习-- Policy Network与DQN实现
最近在接触一些关深度强化学习(DRL)的内容，本文是学习DRL过程中对Demo的复现与理解。相关原理推荐李宏毅的Q...
Daisy丶阅读 18,018评论 0赞 23
深度强化学习 Deep Reinforcement Learning
https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
斑驳岁月再难觅阅读 2,443评论 0赞 2

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文