Q-Learning
- 行是state,列是action
- off-policy算法
- ε-greedy贪心算法
-
Q更新公式如下:
图片.png
SARSA
- on-policy的更新方式,它的行动策略和评估策略都是ε-greedy策略
- 先执行action,再根据reward更新Q-table
DQN
- 使用DNN模拟Q-learning的Q-Table输出Q(s,a)结果
- Q(s, a)表示每个state + action的pair对的预期收益,此处将
-
表示在某个状态s下,采取的action策略函数,即所谓的Actor
- 在训练过程中,先固定Actor,开始行动,同时更新Q(s, a)函数
- 再根据更新后的Q(s, a)函数,调整行动策略
,拟合函数为
- 经验回放:
通过随机采样打断经验之间的关联性 - Dueling-DQN
拆分模型
Q = V + A
共用Deep部分,在tuning的位置分别预估V和A
