1.2 例子以及简单应用:
(1)一个象棋大师走了一步。通过计划预期可能的回复和反回复,以及通过对特定位置和动作的可取性的即时、直观的判断,做出选择。
(2)自适应控制器实时调整炼油厂的运行参数。控制器根据指定的边际成本优化产量/成本/质量权衡,而不严格遵守工程师最初建议的设定值。
(3)一只小羚羊出生几分钟后挣扎着站起来。半小时后,它以每小时20英里的速度运行。
(4)一个移动机器人决定是进入一个新的房间去收集更多的垃圾,还是开始寻找返回电池充电站的路。它根据电池的当前充电水平以及过去找到充电器的速度和方便程度做出决定。
(4)菲尔准备早餐。仔细研究,即使是这一看似平凡的活动也揭示了一个复杂的条件行为网络和相互关联的目标-子目标关系:走向橱柜,打开它,选择一个谷类食品盒,然后伸手去拿,抓取和取回盒子。要获得碗、汤匙和牛奶罐,还需要其他复杂的、经过调整的、交互的行为序列。每一步都涉及到一系列的眼球运动,以获取信息并引导到达和移动。人们不断地快速判断如何携带这些物品,或者在获得其他物品之前是否最好先将其中一些物品运到餐桌上。每一步都是以目标为指导的,比如抓一个勺子或者去冰箱,并且是为其他目标服务的,比如一旦麦片准备好了,就可以用勺子吃饭,最终获得营养。无论他是否意识到这一点,菲尔都在获取有关他身体状况的信息,这些信息决定了他的营养需求、饥饿程度和食物偏好。
案例的共同点:都有主动决策智能体与环境之间的交互。在这种交互中,尽管其环境不确定,智能体仍在寻求实现目标。允许智能体的行为影响环境的未来状态(例如,下一个国际象棋位置、炼油厂储液罐的液位、机器人的下一个位置及其电池的未来充电水平),从而影响代理在以后的时间可用的选项和机会。正确的选择需要考虑行动的间接、延迟后果,因此可能需要远见或计划。同时,在所有这些例子中,行动的影响无法完全预测;因此,智能体必须经常监视其环境并做出适当的反应。例如,菲尔必须注意他倒进麦片碗里的牛奶,防止牛奶溢出。所有这些例子都涉及到明确的目标,即智能体可以根据其直接感知的内容判断朝着其目标的进展。下棋的人知道他是否赢了,炼油厂的控制员知道生产了多少石油,移动机器人知道电池什么时候用完,菲尔知道他是否正在享用早餐。
在所有这些示例中,智能体都可以随着时间利用其经验改进其性能。国际象棋棋手改进了他用来评估位置的直觉,从而提高了他的水平;小羚羊提高了它的奔跑效率;菲尔学会了简化早餐的制作。agent在开始时为任务带来的知识,无论是来自相关任务的先前经验,还是通过设计或进化内置到任务中的知识,都会影响有用或易于学习的内容,但与环境的交互对于调整行为以利用任务的特定特征至关重要。
1.3 强化学习的要素
除了智能体(agent)和环境(environment)外,还可以确定强化学习系统的四个主要子元素:(1)策略(policy)、(2)奖励信号(reward signal)、(3)价值函数(value function),以及(4)(可选)环境模型(model of the environment)。
策略:定义了学习智能体在给定时间的行为方式。Roughly speaking, a policy is a mapping(映射)from perceived states of the environment to actions to be taken when in those states.对应于心理学一系列刺激-反应规则或关联。可能是简单的函数或查找表(lookup table),也可能会是涉及大量计算的搜索过程。策略是强化学习智能体的核心,决定了行为,一般来说是随机的。
奖励信号:(1)是强化学习问题的目标。每个时间步,环境向智能体反馈一个称为奖励的数字,智能体的唯一目标就是最大化长期内获得的总奖励,(2)所以奖励信号定义了智能体的好或坏事件。在生物系统内,可以认为奖励类似于快乐或痛苦的经历,它们是智能体所面临问题的直接和决定性特征。(3)奖励信号是改变策略的主要依据;如果策略选择的某个操作之后是低奖励,则该策略可能会更改,以在将来选择该情况下的其他操作。(4)一般来说,奖励信号可能是环境状态和所采取行动的随机函数。
奖励信号表示即时意义上的好,而价值函数则表示长期意义上的好。粗略地说,一个状态的价值是一个智能体从该状态开始,在未来可以期望累积的报酬总额。奖励决定了环境状态的直接、内在的可取性,而价值则表明在考虑到可能出现的状态以及这些状态中可用的奖励后,状态的长期可取性。例如,一个状态可能总是产生较低的即时回报,但仍然具有较高的价值,因为它经常被其他产生较高回报的状态跟随。反之亦然。用人类的比喻来说,奖励有点像快乐(如果高)和痛苦(如果低),而价值观则对应于对我们的环境处于特定状态时我们是多么高兴或不高兴的更精确和有远见的判断。通过这种方式表达,很明显值函数形式化了一个基本的和熟悉的概念。
在某种意义上(in a sense)奖励是首要的,而价值作为奖励的预测是次要的。没有奖励也就没价值,评估价值的唯一目的就是获得更多奖励。但是当做出和评估决策时,价值仍是决策者最关心的,行动选择基于价值判断,希望找出带来最大价值的行动而不是最高回报的,因为从长远来看,这些行动会带来最大回报。然而确定价值比确定回报难得多,奖励基本直接由环境给予,然而价值必须由智能体在全生命周期内的观察序列中进行估计和重估。事实上,一种有效估计价值的方法是几乎所有的强化学习算法中最重要的部分。价值评估的核心地位是过去几十年研究者关于RL最重视的东西。
第四个也是最后一个组成元素是环境模型。它是对环境行为的模仿,或者更一般地说,允许对环境行为做出推断。比如,给定一个状态和动作,模型可能会预测结果的下一个状态和下一个奖励。模型可以用来规划,意思是说考虑实际上还没有经历的可能的未来情景,以此进行的任何行动方式。使用模型和规划来解决强化学习问题的方法称为基于模型的方法,相对更简单的无模型的方法明显是试错法学习者——与规划几乎是对立的。第八章研究同时通过尝试和错误学习,环境模型学习,并使用该模型进行规划。现代强化学习涵盖了从低级、试错学习到高级、审慎的计划。
1.4 限制和范围
要点:RL高度依赖于状态的概念——作为策略和价值函数输入、作为模型的输入和输出。非正式的说,可以认为状态是向智能体传递在特定时间“环境如何”的信号。
假设:状态是作为智能体环境名义上一部分的预处理系统产生的,本书不讨论构造、改变或学习状态信号。重点在于根据任何可用状态信号如何进行决策和行动。
本书考虑的大部分强化学习方法都是围绕评估值函数来构造的,但不必严格地去解决强化学习问题。例如,诸如遗传算法、遗传规划、模拟退火和其他优化方法等方法已被用于处理强化学习问题,而不适用于评估值函数。这些方法评估许多非学习智能体的“终生”行为,每个智能体使用不同的策略与其环境交互,并选择那些能够获得最大回报的智能体。之所以称之为进化方法,是因为它们的运作方式类似于生物进化产生具有熟练行为的生物体的方式,即使它们在个体生命中没有学习。如果策略空间足够小,或者策略的结构可以使好策略很普通或很容易找到,或者搜索时间很长,那么进化方法是有效的。此外,进化方法在学习代理无法感知其环境的完整状态的问题上具有优势。
强化学习方法在与环境交互时学习,而进化方法则不会。在许多情况下,能够利用个体行为交互细节的方法可能比进化方法更有效。进化方法忽略了强化学习问题的许多有用结构:(1)没有利用他们正在搜索的策略是从状态到行为的函数这一事实;(2)没有注意到一个智能体从头至尾中经历了哪些状态,或者选择了哪些动作。在某些情况下,这些信息可能具有误导性(例如,当状态被误解时),但更常见的情况是,它可以支持更有效的搜索。虽然进化和学习有许多共同的特征,并且自然地一起工作,但是我们并不认为进化方法本身特别适合于强化学习问题,因此,本书不涉及它们。
然而,我们确实包含了一些方法,像进化方法一样,不适用于价值函数。这些方法在由一组数值参数定义的策略空间中搜索。它们估计参数应该调整的方向,以便最快速地提高策略的性能。然而,与进化方法不同的是,它们在agent与其环境交互时产生这些估计,因此可以利用个体行为交互的细节。这样的方法在许多问题上都被证明是有用的,一些最简单的强化学习方法也属于这一类(见第13章)。然而,这种类型的最佳方法往往包括某种形式的值函数。