1.1 简介
Markov决策过程是决策理论规划、强化学习及随机域中的其他学习问题的一种直观和基本的构造模型。在这个模型中,环境通过一组状态和动作建模,可以用来执行以控制系统的状态。通过这种方式来控制系统的目的是最大化一个模型的性能标准。事实上,Markov决策过程已经成为时序决策事实上的标准方法。
1.2 时序决策
强化学习其目的在于:允许学习器学习如何在环境中动作,环境中仅有的反馈由标量奖励信号组成。
学习器的目标是长期最大化来自于环境的奖励信号。
学习器可以在每个状态中选择一个动作,学习器从环境中获得的感知是每一个动作后环境的状态加上在每一步获得的标量形式的奖励信号。
1.2.1 接近时序决策
(1)基于编程的解决方案
适用于工作在完全已知的且带有固定的概率分布的静态问题,对于系统出现动态变化和新的元素情形不再适用,该解决方案是脆弱的。
(2)基于搜索和规划的时序决策
当系统的动态是可知的,学习器可以通过搜索和规划,从当前的状态转移到下一个目标状态。当动态不再确定时,需要引入概率规划算法。
(3)学习
优点a)系统设计师不需要考虑所有情形;b)学习可以应对系统的不确定性、基于奖励定义目标和不断变化的环境;c)学习是解决每一个状态的问题,而不仅仅是从一个状态转换到另一个状态的规划。
1.2.2 在线学习与离线学习
在线学习是直接在问题的实例上进行学习,但这样需要大量的真实样本,显然很多时候难以实现,并且可能带来巨大成本;
离线学习使用环境的模拟器作为一种廉价的方式获得训练样本,这是一个安全且快速的学习方式,但不能完全模拟真实环境。
1.2.3 贡献分配
时间性贡献分配问题和结构性贡献分配问题
1.2.4 探索-运用的平衡
学习器必须通过执行动作和感知动作结果的方式来探索环境,即对环境的影响和所获得的奖励。
为了学习,学习器必须探索,但是为了更好的性能,学习器必须运用已经知道的知识。平衡探索和已有知识的运用。
1.2.5 反馈、目标和性能
在强化学习中,信息来自环境的反馈,这是评估性的而不是指导性的,因为环境提供的评估信息是有限的,所以学习器必须要更加了努力地评估和改进动作。
当奖励函数与正确的目标一致,或者策略解决的是正确的问题,所有提出的学习问题都会有一些最优策略。
1.2.6 表达
——表达什么和如何表达?
可以或应该表达的关键组件是环境动态模型,奖励的分布,价值函数和策略。
1.3 正式的框架
本章1.1节描述的强化学习问题的元素可以通过马尔科夫决策过程的框架来正则化。
状态、动作、策略和使用不同类型的最优准则确定的学习目标
1.3.1 Markov决策过程
——状态、动作、转换函数、奖励方程
1.3.1.1 状态
在有些情况下,有必要区分合法和非法状态,某些特征组合,可能不能描述在问题问题中实际存在状态
1.3.1.2 动作
动作可以用于控制系统状态,显然不一定所有的动作都可以应用于所有的状态,有些动作无法运用于某些状态,而这些动作可以通过一个先决条件方程来建模
1.3.1.3 转换函数
通过将动作运用于状态,基于可能的转换集合的概率分布,学习系统能够完成从当前状态到县状态的转换。