2022-05-01 DQN要点笔记

Q-Learning

  • 行是state,列是action
  • off-policy算法
  • ε-greedy贪心算法
  • Q更新公式如下:


    图片.png

SARSA

  • on-policy的更新方式,它的行动策略和评估策略都是ε-greedy策略
  • 先执行action,再根据reward更新Q-table

DQN

  • 使用DNN模拟Q-learning的Q-Table输出Q(s,a)结果
  • Q(s, a)表示每个state + action的pair对的预期收益,此处将
  • \pi(s)表示在某个状态s下,采取的action策略函数,即所谓的Actor
  • 在训练过程中,先固定Actor,开始行动,同时更新Q(s, a)函数
  • 再根据更新后的Q(s, a)函数,调整行动策略\pi(s),拟合函数为
    Q(s_t, a_t) = r_t + Q(s_{t+1}, \pi_(s_{t+1}))
  • 经验回放:
    通过随机采样打断经验之间的关联性
  • Dueling-DQN
    拆分模型
    Q = V + A
    共用Deep部分,在tuning的位置分别预估V和A
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容