AI学习笔记——Sarsa算法

上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。

1. 回顾Q Learning

还是同样的例子,红色智能体在4x4的迷宫中寻找黄色的宝藏。找到宝藏,将会的到+1的奖励,如果掉进黑色陷阱就回的到-1的奖励(惩罚)。


首先回顾一下Q表如下

Q table (States\Actions) left (A1) right (A2) up (A3) down (A4)
S0 -1 3 -1 2
S1 1 2 -1 1
... ... ... ... ..

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

在Q Learning 算法中,当智能体处于S0的状态时,它的目标值是:
R(S1) + γmaxa Q(S1,a)*。此时他还在S0的位置上,但是已经在计算S1上的最大Q值了。但是此时它并没有行动,也不一定会在S1采取Q值最大Q(S1, A2)的行动。因为我们提到,它还有10%的概率随机选择其他的行动 (ε贪婪方法(ε -Greedy method))。

2. SARSA 行动派

”SARSA“ 五个字母是当前 S (状态), A(行动), R(奖励) 与 下一步S'(状态) A'(行动) 的组合,即我们不仅需要知道当前的S, A, R 还需要知道下一步的 S' 和 A‘。

在Sarsa算法中,智能体的目标

R(S1) + γQ(S1,A)*

至于A是多少,完全取决于智能体实际上选择的哪一个Action。智能体有90%的概率会选择Q值最大的Action(A2),还有10%的概率会随机选择一个Action。

所以,Sarsa的算法是这样的。

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*Q(S1,A)-Q(S0,A2)]

除了其目标值与Q learning 有所不同之外,其他的都是一模一样的。

所以Sarsa是在线学习(On Policy)的算法,因为他是在行动中学习的,而且至始至终只有一个Policy. 使用了两次greedy-epsilon 方法来选择出了Q(S,A)和q(S',A')。

而Q learning离线学习(Off Policy)的算法,QLearning选择Q(S,A)用了greedy方法,而计算A(S',A')时用的是max方法,而真正选择的时候又不一定会选择max的行动, 所以 Q learning 学习和行动分别采用了两套不同的Policy

Q learning 通过Max的函数,总是在寻找能最快获得宝藏的道路,所以他比较勇敢。而Sarsa 却相对谨慎。

3. Sarsa-lambda

Q learning 和 Sarsa都是单步更新的算法。单步跟新的算法缺点就是在没有找到宝藏之前,智能体在原地打转的那些行动也被记录在案,并更新了Q表,即便那些行动都是没有意义的。

Lambda(λ)这个衰减系数的引入,就是为了解决这个问题的。与γ用来衰减未来预期Q的值一样,λ是当智能体获得宝藏之后,在更新Q表的时候,给智能体一个回头看之前走过的路程的机会。相当于,智能体每走一步就会在地上插一杆旗子,然后智能体每走一步旗子就会变小一点。
Sarsa-lambda 的完整算法在这里:


注意,该算法与Sarsa 算法不同的地方就是多乘了一个E(s, a) (Eligibility Trace"不可或缺性值"),而这个E(s, a)又同时受γ和λ调控。并且在更新Q表的时候,不仅仅是更新一个Q(S,A),而是整个Q表所有的Q值都被更新了。

4. 总结

本文粗浅地介绍了什么是SARSA 算法,详细介绍和代码实战将在下一篇文章中继续探讨。


首发steemit

欢迎扫描二维码关注我的微信公众号“tensorflow机器学习”,一起学习,共同进步


image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,624评论 0 25
  • 1 A是个非常优秀的女孩,理性的头脑和开朗的性格,在大家都懵懵懂懂的学生时期,相当显眼。身边的朋友们也一直都以为她...
    静止想象阅读 994评论 0 49
  • (一) 深宫无年岁,这是遇着毛延寿之前。 (二) 建昭五年岁末,宫女王樯在自己小小的居所里,为正月的到来而忙碌。扫...
    安岁Icey阅读 354评论 0 0
  • 目的 你有没有被一个尴尬的问题困扰过,在微信中浏览商品列表的时候滑到了一个中间的位置,点击了某一个详情,可是从详情...
    fourn熊能阅读 3,097评论 0 50

友情链接更多精彩内容