登录注册写文章

强化学习 Q Learning

重新出发_砥砺前行

强化学习 Q Learning

Q Learn 也是一个决策过程，，Q表使用：

Q表的update运行逻辑（没有懂细节）

R为到此时获取到的奖励值，例如棒棒糖。。r 例如0.9

S2 时刻的决策需要等到新的Q（s1,a2）计算完后

具体的算法逻辑

和现实中一样，，对很远的奖励，，人们期望不一样，都会打折扣。。

最后编辑于：2017.12.05 07:45:54

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,413评论 0赞 25
Java初级面试题
1. Java基础部分基础部分的顺序：基本语法，类相关的语法，内部类的语法，继承相关的语法，异常的语法，线程的语...
子非鱼_t_阅读 31,805评论 18赞 399
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Ch...
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...
Albert陈凯阅读 22,411评论 9赞 476
我站在
我站在树旁，那是一棵开满希望的树，我希望，希望你从树旁走过，因为，那是我前世许下的承诺。我站在路灯脚下...
颜小蕾阅读 418评论 2赞 4
坑查人生
大约12年前的北京初春，我的一位同事，也是公司里的好友、酒友、可以交心的朋友，对我说，他想写一本书,书名叫<<坑查...
it803阅读 367评论 0赞 7

1赞2赞

赞赏

手机看全文