强化学习之Q-learning与SARSA

Q-learning 和 SARSA是两种model-free的学习方法，两者有很多异同点。
比如在评估策略和行动策略上面，评估策略是用来更新Q值表格的（也就是“学习”），行动策略是用来决定下一步行动的。
首先Q-learning 是off-policy 的，翻译成异策略，也就是评估用的策略和实际行动采用的策略是不一样的，其中评估策略采用的是贪婪策略，而行动策略采用的是ε-greedy策略；也就是说Q-Learning学到的用来更新Q值的用的是最好的值，而实际上采用的方法却不是，有点像道理我都懂，却过不好这一生。

Q-learning

SARSA

而SARSA是on policy的，也就是评估策略和行动策略使用的是相同的方法，即都为也是采用ε-greedy策略。也就是说，SARSA没学到的方法和用的是同一种，就比较踏踏实实。

refers:
强化学习(七)--Q-Learning和Sarsa