Playing Atari with Deep Reinforcement Learning

1. 简介

使用CNN从raw pixel学习Q(s, a)，利用experience memory学习Q(s, a)，在atari2600 games中的7款游戏上进行了测试，全部超越之前算法，并且在3款游戏上超过了人类。

DQN Architecture

same network architecture, same learning algorithm, same hyper parameter across all seven games.
Raw pixel cropped to 84x84x4.
在固定时间步下，比较不同算法(其他算法的输入是handcraft-feature)在7款游戏上的、所有episode的reward sum的average；同时，比较在这些episode中reward sum的最大值。此外，包括人类选手的score。
为了适应不同游戏的reward, 在train的时候positive reward=1, negative reward=-1, zero reward=0。
评价的时候使用 for a fixed number of steps(具体数字未提)。

2 dense layers for output。
不同游戏时reward 归一，便于generalization。
memory size 约为 total steps 的 1/10。
RMSProp优化算法
参考文献值的读的：
《Prioritized Sweeping- Reinforcement Learning with Less Data and Less Real Time》、
《Deep Auto-Encoder Neural Networks in Reinforcement Learning》

最后编辑于：2018.03.10 00:08:05

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。