1. 基本概念
Agent:决策者,智能体。
Environment: 与智能体交互的环境。
State :当前agent在环境中所处的状态。
Action:当前agent动作,由当前状态和上一个状态reward、策略一起决定。
Reward: 环境对于动作返回的奖励。
Policy:agent的行为,从state到action的映射。
2. Model-based和Model-free
Model-free只需要通过与环境的交互来学习最优策略,而不需要事先了解环境的动态特性。
任务环境简单,数据有限,且有足够计算资源来构建和维护模型,Model-based是更好的选择。
环境模型难以构建或者需要大量实时交互数据的情况下,Model-free方法更为适用。
2.1 Model-based(对转移概率和奖励建模)
已知状态转移概率P、采取action后的奖励R,利用模型做出动态规划得到最佳策略。
如果已知转移概率,以及执行任何动作的回报,通过动态规划求解得到一个回报最高的策略。
适用于环境模型已知或易于建模的任务,例如棋类游戏。
2.2 Model-free(不对转移概率和奖励建模)
对状态S下执行动作A,可能获得未来累计奖励进行估计。
适用于环境难以建模或模型不准确的领域,比如自然语言处理或图像识别任务。
3. Policy-based和Value-based
3.1 Policy-based
on-policy:只使用了当前策略产生的样本更新值函数。
off-policy:并不一定使用当前策略产生的样本更新值函数。