强化学习 Q Learning


Q Learn 也是一个决策过程,,Q表使用:

Q表的update运行逻辑(没有懂细节)

R为到此时获取到的奖励值,例如棒棒糖。。r 例如0.9

S2 时刻的决策需要等到新的Q(s1,a2)计算完后


具体的算法逻辑 



和现实中一样,,对很远的奖励,,人们期望不一样,都会打折扣。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,413评论 0 25
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,805评论 18 399
  • 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...
    Albert陈凯阅读 22,411评论 9 476
  • 我站在树旁, 那是一棵开满希望的树, 我希望, 希望你从树旁走过, 因为, 那是我前世许下的承诺。 我站在路灯脚下...
    颜小蕾阅读 418评论 2 4
  • 大约12年前的北京初春,我的一位同事,也是公司里的好友、酒友、可以交心的朋友,对我说,他想写一本书,书名叫<<坑查...
    it803阅读 367评论 0 7