Sarsa 是啥。简单说就是Qlearning只考虑最高价值的,Sarsa 还考虑最差价值的。
源码地址:HTTPS://GITHUB.COM/YUANYUANGONG/GYYTENSOR.GIT
在 《零碎的python基础代码》这个文件夹里。人懒就不重新起 项目,感谢莫烦大神的教程和源码

Qlearning 的 输入当前位置 根据 算法 选择 动作,获得下一个位置 ,以及该位置的 价值。(如果是黄点,价值reward 为1 。黑点为 -1)
然后取下一个位置的最大值 作为当前的 q_table(state,action)的参考(自然不能直接赋值,可能要乘以一些参数,毕竟越远折扣越大等,因素)。这里sarsa 则 先用 下一位置 s_ 得到 下一位置的 动作 a_
于是当前位置 就q_table(s,a) 就参考 q_table(s_,a_),这样,如果 q_table(s_,a_) 是 负值(不好的值,就能被记录参考)。
最后,感谢阅读此文的同志们,若有疑问可以加 QQ 群,660357555 一起来探讨。