什么是 Q-learning?

1. 什么是 Q-learning?


它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:



这个表格的每一行代表每个 state,每一列代表每个 action,表格的数值就是在各个 state 下采取各个 action 时能够获得的最大的未来期望奖励。


通过 Q table 就可以找到每个状态下的最优行为,进而通过找到所有最优的action得到最大的期望奖励。


2. 所以关键问题是表格的数值如何计算呢?


1. 首先 Q-table 初始化为 0。

2. 3. 然后根据当前的Q-Table给当前state选择一个action并执行。

执行过程是一直到本轮训练停止才算完成。不过因为初始的 Q-value 全是0,就要采取 epsilon greedy strategy 来选择。

所谓 epsilon greedy strategy 是指:

开始时通过设置一个较大的 epsilon,让agent探索环境并随机选择action。

随着agent对环境的了解,降低epsilon ,这样agent开始利用环境做出行动。

在当前state下选择了某个action后,就可以用Bellman equation计算Q-values:


4. 5. 评估:采取行动得到了奖励后就可以用Q函数更新 Q(s,a):


重复这个过程一直到训练停止,就可以得到最优的 Q-table。



参考文献:

https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 我们以一个迷宫寻宝的游戏为例来看什么是 Q-learning。 在这个游戏中,agent 从一个给定的位置开始,即...
    不会停的蜗牛阅读 21,707评论 2 19
  • Design and Evaluation of Learning Algorithms for Dynamic ...
    哈熝少主阅读 773评论 0 3
  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,414评论 0 25
  • 部分专有名词在上一篇文章有介绍,本文不作过多赘述。 目录 前言 算法思想 算法详解 算法公式 探险者寻宝藏实战(一...
    CristianoC阅读 864评论 0 0
  • 迷惘人雕像 作者:萨基 译者:耀清 从前,有一座年代久远的大教堂。沿着它的层层防护矮墙,间隔矗立着一些石雕:它们有...
    藥清玉竹阅读 949评论 2 5