Q-Learning

大多数 RL 是由 reward 导向的

qlearning的原理就是一个数学公式：

2-1-1.png

Screen Shot 2017-09-21 at 17.06.20.png

最后编辑于：2017.12.10 14:39:13

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

基于tensorflow的最简单的强化学习入门-part0：Q-learning和神经网络
基于tensorflow的最简单的强化学习入门-part0：Q学习和神经网络本文翻译自 Simple Reinf...
y_felix阅读 9,425评论 2赞 8
解析 DeepMind 采用双 Q 学习 (Double Q-Learning) 深度强化学习技术
Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist...
朱小虎XiaohuZhu阅读 22,727评论 0赞 8

Q-learning
今天,来说说q-learning.在我最近学习机相关资料后.首先关于q-learning 是一个马尔科夫决策的过程...
95a585197cbd阅读 708评论 0赞 1
Secondlife机器智能实验六-Q learning
算法强化学习的目标是学习一个行为策略π：S→A，使系统选择的动作能够获得环境奖赏的累计值最大，也使得外部环境对学...
大喵与小喵阅读 536评论 0赞 0
生命的舞者
郭相麟 ”我的家在松花江上，那里有森林煤矿，还有那大豆高梁……”在这个特殊的日子里，聆听这首悲壮的歌，仿佛回到了...
郭相麟阅读 242评论 0赞 0

赞1赞

赞赏

手机看全文