Short corridor with switched actions

该题目摘自Sutton的强化学习经典教材,然而它的本质是一道随机过程问题(马可夫链)

s是起点,g是终点,在每个格子以p的概率向右,(1-p)的概率向左;但是,在第2个格子里,动作会被神奇地反置,即你朝左,上帝会把你掰向右。求到G的步数期望

求解过程
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • | 姓名 | 学号 | 班级 | 选题 | 论述 | 结论 | 总分 || ---- | ---- | ---- ...
    墨兵笔阵阅读 3,091评论 0 1
  • 神经网络 原理 《机器学习》周志华 14.1 隐马尔可夫模型 机器学习最重要的任务,是根据一些已观察到的证据(例如...
    hxiaom阅读 1,385评论 0 1
  • 层次化的隐马尔可夫模型 在自然语言处理等应用中,由于处理序列具有递归特性,尤其当序列长度比较大时,HMM的复杂度将...
    我偏笑_NSNirvana阅读 6,834评论 1 15
  • 它是编程之神的传统咒语,可以帮助你开始这段感情......
    cooore阅读 349评论 0 0
  • 2017/5/18 早上30分钟骑车 喝的蛋白质粉,乐纤 晚上应酬,喝了好多酒,白的红的 很晚回家睡觉 没有运动
    静悄悄的静阅读 190评论 0 0