[DQN] Playing Atari with Deep Reinforcement Learning

论文链接：https://arxiv.org/abs/1312.5602
引用：Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.

概述

Deep Reinforcement Learning (DQN) 是一个 model-free、off-policy 的强化学习算法，使用深度神经网络作为非线性的函数估计，是一个“端到端”训练的算法。Deep Q-network 直接接受RGB三通道图片作为输入，输入为N个动作对应的Q值，即 $Q(s,a)$ ，论文的实验主要基于七个Atari游戏。

算法

DQN 算法

主要的创新点

引入了一个replay buffer，用于存储采样，即一个四元组： $[state_t,action_t,reward_t,state_{t+1}]$ ，每次梯度更新需要从buffer中随机抽取一批数据来进行梯度下降，由于buffer本身有大小限制，所以新进来的数据会顶替旧的数据（按队列规则，先进先出），这样的好处在于：可以减少每个sample之间的关联性，减少方差，（因为训练时假设每个sample都是iid的，也就是 independently and identically distributed，但是如果直接使用按照时间序列依次采样得到的sample来训练，显然他们是不符合iid的），并且可以使用batch训练来充分利用硬件资源。
使用了target network和policy network，采样时使用target network来取得数据，但是训练时更新policy network的参数，在一定的步骤数后，将policy network的参数再拷贝给target network。
由于有一个replay buffer，而且batch size要远远大于1，而每一步都会采样更新，所以几乎每个sample都会被使用好多次，所以是 data efficient 的。
可以端到端训练，因为输入时直接使用游戏界面的RGB图像，输出时Q值。
网络底层对RGB图片进行了一定的预处理，将其转换成了灰度图，且裁剪出中间的一个游戏的主体部分

其他的点

实验所测试的所有Atari游戏均采用了同一套网络结构和超参数（很强的适应性）
在进行evaluation的时候，除了传统的使用累计奖赏或平均奖赏外，还使用了一些state对应的Q值变化来进行评估，更能体现出算法的稳定性

最后编辑于：2021.06.07 14:20:17

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

[DQN] Playing Atari with Deep Reinforcement Learning