用零基础的视角学强化学习之 Qlearning 对比 Sarsa

Sarsa 是啥。简单说就是Qlearning只考虑最高价值的,Sarsa 还考虑最差价值的。

源码地址:HTTPS://GITHUB.COM/YUANYUANGONG/GYYTENSOR.GIT

在 《零碎的python基础代码》这个文件夹里。人懒就不重新起 项目,感谢莫烦大神的教程和源码

Qlearning 的 输入当前位置 根据 算法 选择 动作,获得下一个位置 ,以及该位置的 价值。(如果是黄点,价值reward 为1 。黑点为 -1)

然后取下一个位置的最大值 作为当前的 q_table(state,action)的参考(自然不能直接赋值,可能要乘以一些参数,毕竟越远折扣越大等,因素)。这里sarsa 则  先用 下一位置 s_  得到 下一位置的 动作 a_  

于是当前位置 就q_table(s,a)  就参考 q_table(s_,a_),这样,如果 q_table(s_,a_) 是 负值(不好的值,就能被记录参考)。


最后,感谢阅读此文的同志们,若有疑问可以加 QQ 群,660357555 一起来探讨。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容