第10-11章 稀疏奖励与模仿学习

稀疏奖励(Sparse Reward)

Agent无法得到足够多的,有效的奖励,或者说Agent得到的是稀疏奖励,进而导致Agent学习缓慢甚至无法进行有效学习。
三个方向来解决稀疏奖励的问题:

Reward Sampling

  • 设计了一些Reward来引导Agent
  • 缺陷:需要Domain Knowledge

Curiosity Driven

  • Intrinsic Curiosity Module,ICM
    • 如果未来的State越难被预测,得到的Reward越大,鼓励Machine冒险,倾向于采取一些风险比较大的Action
    • 光有好奇心不够,要知道哪些事情是重要的。训练Feature Extractor来过滤不重要事情
Intrinsic Curiosity Module

Curriculum Learning

  • 给Machine规划从最简单的到最难的课程

Reverse Curriculum Generation

  • 一开始有一个Goal States_g,是最理想的结果
  • 采样一些比较接近s_g的State
  • 从这些State开始,最终得到Reward

Hierarchical Reinforcement Learning

  • 将一个复杂的强化学习问题分解成多个简单的子问题
  • 一些Agent负责订目标,再分配任务给其他的Agent执行完成:
Hierarchical Reinforcement Learning

模仿学习(Imitation Learning,IL)

  • 没办法得到奖励,通过收集专家的示范进行学习
  • 也叫做:
    • 示范学习(Learning from Demonstration)
    • 学徒学习(Apprenticeship Learning)
    • 观察学习(Learning by Watching)
  • 两个方法:
    • 行为克隆(Behavior Cloning,BC)
    • 逆强化学习(Inverse Reinforcement Learning,IRL)或逆最优控制(Inverse Optimal Control)

行为克隆

  • 监督学习
  • 数据集聚合(Dataset Aggregation,DAgger)
    • 采取的动作会影响接下来的状态
    • 机器没有办法完全复制专家的行为,它复制差一点,得到的结果或许会差很多

逆强化学习

  • 专家得到的分数要比演员得到的分数高
Inverse Reinforcement Learning
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容