稀疏奖励(Sparse Reward)
Agent无法得到足够多的,有效的奖励,或者说Agent得到的是稀疏奖励,进而导致Agent学习缓慢甚至无法进行有效学习。
三个方向来解决稀疏奖励的问题:
Reward Sampling
- 设计了一些Reward来引导Agent
- 缺陷:需要Domain Knowledge
Curiosity Driven
- Intrinsic Curiosity Module,ICM
- 如果未来的State越难被预测,得到的Reward越大,鼓励Machine冒险,倾向于采取一些风险比较大的Action
- 光有好奇心不够,要知道哪些事情是重要的。训练Feature Extractor来过滤不重要事情

Intrinsic Curiosity Module
Curriculum Learning
- 给Machine规划从最简单的到最难的课程
Reverse Curriculum Generation
- 一开始有一个Goal State
,是最理想的结果
- 采样一些比较接近
的State
- 从这些State开始,最终得到Reward
Hierarchical Reinforcement Learning
- 将一个复杂的强化学习问题分解成多个简单的子问题
- 一些Agent负责订目标,再分配任务给其他的Agent执行完成:

Hierarchical Reinforcement Learning
模仿学习(Imitation Learning,IL)
- 没办法得到奖励,通过收集专家的示范进行学习
- 也叫做:
- 示范学习(Learning from Demonstration)
- 学徒学习(Apprenticeship Learning)
- 观察学习(Learning by Watching)
- 两个方法:
- 行为克隆(Behavior Cloning,BC)
- 逆强化学习(Inverse Reinforcement Learning,IRL)或逆最优控制(Inverse Optimal Control)
行为克隆
- 监督学习
- 数据集聚合(Dataset Aggregation,DAgger)
- 采取的动作会影响接下来的状态
- 机器没有办法完全复制专家的行为,它复制差一点,得到的结果或许会差很多
逆强化学习
- 专家得到的分数要比演员得到的分数高

Inverse Reinforcement Learning