Deep Q-Learning详解

前言:
本文算是个人笔记,如有不足或需要讨论的,欢迎交流,邮箱即QQ。
有大佬知道如何搭网络的(如多少层和每层多少个神经元等参数怎么调),求请教。。

封面:

了解DQN必须从Q-learning讲起。不过先说明一点,不论是DQN还是Qlearnging 都是基于值的方法,至于基于值和基于策略的区别,我打算放在最后末尾。(因为这不是我要讲的重点)

Q-learning简单介绍:

一言蔽之,以选取未来奖励(值)最大的动作为agent决策方法。
但值是以表格的形式给出(比如总列为状态,横列为动作),需要经过一定训练才能反映出准确的未来奖励,所以一般会设某个大小为ε的值作为随机选取的概率。

new4.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容