登录注册写文章

deep reinforcement learning: DQN variant

deep reinforcement learning: DQN variant

Doubel DQN

Q function 倾向于高估reward的action。

Double DQN两个Q function，一个用来估计value用于选择action，另一个实际计算action的value。

image.png

实际的typical DQN中也有两个Q function，原来固定的target network来算，改为用可以update的network来算。

Dueling DQN

image.png

实际中为强迫network优化V，会给A一些约束，保证V不会有平凡的解。如给 $A(s,a)$ 做normalization，约束average为0。

other tips

image.png

image.png

image.png

image.png

image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Deep Reinforcement Learning (Not done yet)
Deep Reinforcement Learning强化学习是一种探索式的学习方法，通过不断 “试错”来得到改进...
gritsasa15阅读 4,626评论 0赞 1
深度强化学习 Deep Reinforcement Learning
https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
斑驳岁月再难觅阅读 6,848评论 0赞 2

精简强化学习总结
强化学习元素：actor(我们可以控制，决策我们的行为)，Env，Reward（我们不能控制环境）主要方法：mo...
fada_away阅读 19,241评论 0赞 14
A survey on value-based deep reinforcement lear...
A survey on value-based deep reinforcement learning ABSTR...
Jabes阅读 3,301评论 0赞 0
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 12,189评论 16赞 22

赞1赞

赞赏

手机看全文