增强学习四要素

增强学习四个要素

  1. policy policy指的是一个函数或者规则,输入为环境状态,输出为action(Roughly speaking, a policy is a mapping from perceived states of the environment to actions to be taken when in those states.)
  2. reward reward翻译为奖励,指在某个action之后环境给你的反馈。和环境状态和action有关。reward表示的是即使收益(On each time step, the environment sends to the reinforcement learning agent a single number, a reward. The agent’s sole objective is to maximize the total reward it receives over the long run. The reward signal thus defines what are the good and bad events for the agent)
  3. value function。value function表示的是一种长期回报。一般写作v(s),指的是agent从状态s出发,将来收益的期望。(Roughly speaking, the value of a state is the total amount of reward an agent can expect to accumulate over the future, starting from that state).某个状态的reward可以很低,但是value function可以很高。因为从这个状态转到其他状态,其他状态的reward可以很高。举例:(To make a human analogy, rewards are somewhat like pleasure (if high) and pain (if low), whereas values correspond to a more refined and farsighted judgment of how pleased or displeased we are that our environment is in a particular state.)。在选择action的时候,优先选择value大的state。(We seek actions that bring about states of highest value, not highest reward, because these actions obtain the greatest amount of reward for us over the long run),增强学习的核心就是估计状态的value function
  4. model of the environment. model作为环境的模拟,可以根据此时的状态和做出的ation,预测下一刻的状态以及agent获得的reward。model主要用来做规划。表示我们知道环境的运行原理,方法为model-based。对应的是model-free。model-free需要不断的尝试,试错来预估。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 10,860评论 0 23
  • 1、谁动了我的 “白龙马”? 说孩子,谁带谁亲;车子,看来是谁开谁亲。 我们家白色的小车,我喜欢叫它小白。刚开始我...
    我是败类阅读 409评论 1 0
  • "Time always softens the pain and makes things look like ...
    世羽君阅读 427评论 0 1
  • 前几日,给学生上完课,顺便去格桑老师那儿蹭杯茶喝。偶然间聊起关于本命年一说,我问老师:为啥有本命年的说法,本命年真...
    何说纷纭阅读 1,056评论 0 0
  • 外婆怀里的歌 唱绿了河边的垂柳 唱红了岸边的桃花 唱开了孩子的笑脸 唱响了多彩的童年 外婆怀里的歌 唱过四季的风 ...
    夏木鱼阅读 200评论 0 2

友情链接更多精彩内容