登录注册写文章

2022-05-01 DQN要点笔记

2022-05-01 DQN要点笔记

Q-Learning

行是state，列是action
off-policy算法
ε-greedy贪心算法
Q更新公式如下：

图片.png

SARSA

on-policy的更新方式，它的行动策略和评估策略都是ε-greedy策略
先执行action，再根据reward更新Q-table

DQN

使用DNN模拟Q-learning的Q-Table输出Q(s,a)结果
Q(s, a)表示每个state + action的pair对的预期收益，此处将
$\pi（s）$ 表示在某个状态s下，采取的action策略函数，即所谓的Actor
在训练过程中，先固定Actor，开始行动，同时更新Q（s, a）函数
再根据更新后的Q(s, a)函数，调整行动策略 $\pi（s）$ ，拟合函数为
$Q(s_t, a_t) = r_t + Q(s_{t+1}, \pi_(s_{t+1}))$
经验回放：
通过随机采样打断经验之间的关联性
Dueling-DQN
拆分模型
Q = V + A
共用Deep部分，在tuning的位置分别预估V和A

最后编辑于：2022.05.08 20:40:06

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

icra2021 reinforcement learning paper list
reinforcement learning Autonomous Vehicle Navigation Deep...
吃醋不吃辣的雷儿阅读 1,632评论 0赞 2
InterviewsProblems
gbtd和xgboost区别和优缺点？https://www.jianshu.com/p/7c621813728c...
inspiredhss阅读 509评论 0赞 0

深度强化学习（理论篇）—— 从 Critic-only、Actor-only 到 Actor-...
来源于 Tangowl 的系列文章 https://blog.csdn.net/lipengcn/article/...
TangowL阅读 6,218评论 0赞 4
强化学习
Reinforcement Learning What is Reinforcement Learning Why...
ZhSong阅读 843评论 0赞 0
系列论文阅读——DQN及其改进
DQN 作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。...
想学会飞行的阿番阅读 9,858评论 0赞 5

友情链接更多精彩内容

赞1赞

赞赏

手机看全文