1、背景介绍
学习和推理是人类智能最重要的体现,为了使计算机也能够像人一样学习和决策,机器学习技术应运而生。机器学习利用计算机来模拟和实现人类学习和解决问题的过程,计算机系统通过不断自我改进和学习,自动获取知识并作出相应的决策、判断或分析。机器学习是人工智能的一个重要的研究领域,根据是否从系统中获得反馈,可以把机器学习分为有监督、无监督和强化学习三大类。
监督学习也称有导师学习,给定系统一组输入时,需要给定一组对应的输出,系统在一种已知输入-输出数据集的环境习学习。与监督学习相反的是无监督学习,也称无导师学习。无监督学习中,只需要给定一组输出,不需要给定对应的输出,系统自动根据给定输入的内部结构来进行学习。有监督和无监督的机器学习模式可以解决绝大多数的机器学习问题,但这两种机器学习模式同人类学习、生物进化的过程有很大的不同。生物的进化是一种主动对环境进行试探,并根据试探后,环境反馈回来的结果进行评价、总结,以改进和调整自身的行为,然后环境会根据新的行为作出新的反馈,持续调整的学习过程。体现这一思想的学习模式在机器学习领域称为强化学习(Reinforcement Learning, RL),又称增强学习。因此,强化学习是一种痛有监督学习、无监督学习并列的机器学习模式。
2、强化学习系统
整个强化学习系统由智能体(Agent)、状态(State)、奖赏(Reward)、动作(Action)和环境(Environment)五部分组成,系统示意图如下图所示。
智能体(Agent):Agent是整个强化学习系统核心。它能够感知环境的状态(State),并且根据环境提供的强化信号(Reward Si),通过学习选择一个合适的动作(Action),来最大化长期的Reward值。简而言之,Agent就是根据环境提供的Reward做为反馈,学习一系列的环境状态(State)到动作(Action)的映射,动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward,还会影响下一时刻甚至未来的Reward,因此,Agent在学习过程中的基本规则是:如果某个动作(Action)带来了环境的正回报(Reward),那么这一动作会被加强,反之则会逐渐削弱,类似于物理学中条件反射原理。
环境(Environment):环境会接收Agent执行的一系列的动作(Action),并且对这一系列的动作的好坏进行评价,并转换成一种可量化的(标量信号)Reward反馈给Agent,而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史(History)经历去学习。同时,环境还像Agent提供它所处的状态(State)信息。环境有完全可观测(Fully Observable)和部分可观测(Partial Observable)两种情况。
奖赏(Reward):环境提供给Agent的一个可量化的标量反馈信号,用于评价Agent在某一个时间步(time Step)所做action的好坏。强化学习就是基于一种最大化累计奖赏假设:强化学习中,Agent进行一系列的动作选择的目标是最大化未来的累计奖赏(maximization of future expected cumulative Reward)。
历史(History):历史就是Agent过去的一些列观测、动作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根据历史的动作选择,和选择动作之后,环境做给出的反馈和状态,决定如何选择下一个动作(At)。
状态(State):状态指Agent所处的环境信息,包含了智能体用于进行Action选择的所有信息,它是历史(History)的一个函数:St = f(Ht)。
可见,强化学习的主体是Agent和环境Environment。Agent为了适应环境,最大化未来累计奖赏,做出的一些列的动作,这个学习过程称为强化学习。
3、强化学习的基本要素
一个强化学习系统,除了Agent和环境(Environment)之外,还包括其他四个要素:策略(Policy,P)、值函数(Value Function,V)、回报函数(Reward Function ,R)和环境模型(Environment Model),其中,环境模型是可以有,也可以没有(Model Free)。这四个要素之间的关系如下图所示。
策略(Policy):表示状态到动作的映射。策略的表达式如下。
定义Agent在t时刻的行为方式,直接决定Agent的行动,是整个强化学习系统的核心。策略pi : S X A -> [0,1]或者pi: S -> A,表示在状态S下选择动作A的概率,其中,S代表Agent所有状态State的集合(状态空间),A代表Agent所有动作集合(动作空间)。在任意的状态(State)下,存在由策略pi组成了策略集合F,任意策略pi属于F,在策略集合存在一个使问题具有最优效果的策略pi,称为最优策略,强化学习的目的寻找最优的策略pi。
回报函数(Reward Function):定义了强化学习问题的目标,Agent通过一些列的策略(Policy)选择,最终通过回报函数映射到一个Reward信号,产生关于一个动作好会的评价。Reward信号是一个标量,一般采用正数表示奖赏,负数表示惩罚。
值函数(Value Function):回报函数计算当前的策略的好坏,但没法衡量策略未来的好坏,因此,通过值函数(Value Function)来预测未来的Reward的值,从长远角度来评价策略的好坏。为什么需要从未来角度来衡量策略pi的好坏?有两个原因:1、环境对于策略的给出的评价往往是由延迟的;2、Agent选择的当前动作或者策略,会对未来的状态或者策略选择产生影响,Agent在进行动作选择时,某些动作产生的当前回报值比较高,但从长远来看,可能并没有那么高。因此,需要采用值函数(Value Function)来评估Agent所处的状态的好坏,指导Agent进行动作(Action)的选择。值函数的表达式如下。
环境模型(Environment Model):它使强化学习系统中可选的部分。将强化学习和动态规划等方法结合在一起,环境模型用于模拟环境的行为方式,比如,给定一个状态和动作情况下,环境模型可以预测下一步的状态和回报。借助环境模型,Agent可以在进行策略选择时,考虑未来可能发生的情况,提前进行规划。用P表示下一步状态,R表示下一步的回报,环境模型可以表示成如何形式。