强化学习之Q-learning与SARSA

Q-learning 和 SARSA是两种model-free的学习方法,两者有很多异同点。
比如在评估策略和行动策略上面,评估策略是用来更新Q值表格的(也就是“学习”),行动策略是用来决定下一步行动的。
首先Q-learning 是off-policy 的,翻译成异策略,也就是评估用的策略和实际行动采用的策略是不一样的,其中评估策略采用的是贪婪策略,而行动策略采用的是ε-greedy策略;也就是说Q-Learning学到的用来更新Q值的用的是最好的值,而实际上采用的方法却不是,有点像道理我都懂,却过不好这一生。


Q-learning
SARSA

而SARSA是on policy的,也就是评估策略和行动策略使用的是相同的方法,即都为也是采用ε-greedy策略。也就是说,SARSA没学到的方法和用的是同一种,就比较踏踏实实。

refers:
强化学习(七)--Q-Learning和Sarsa

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。