强化学习基础

1、背景介绍
学习和推理是人类智能最重要的体现,为了使计算机也能够像人一样学习和决策,机器学习技术应运而生。机器学习利用计算机来模拟和实现人类学习和解决问题的过程,计算机系统通过不断自我改进和学习,自动获取知识并作出相应的决策、判断或分析。机器学习是人工智能的一个重要的研究领域,根据是否从系统中获得反馈,可以把机器学习分为有监督、无监督和强化学习三大类。
监督学习也称有导师学习,给定系统一组输入时,需要给定一组对应的输出,系统在一种已知输入-输出数据集的环境习学习。与监督学习相反的是无监督学习,也称无导师学习。无监督学习中,只需要给定一组输出,不需要给定对应的输出,系统自动根据给定输入的内部结构来进行学习。有监督和无监督的机器学习模式可以解决绝大多数的机器学习问题,但这两种机器学习模式同人类学习、生物进化的过程有很大的不同。生物的进化是一种主动对环境进行试探,并根据试探后,环境反馈回来的结果进行评价、总结,以改进和调整自身的行为,然后环境会根据新的行为作出新的反馈,持续调整的学习过程。体现这一思想的学习模式在机器学习领域称为强化学习(Reinforcement Learning, RL),又称增强学习。因此,强化学习是一种痛有监督学习、无监督学习并列的机器学习模式。


2、强化学习系统
整个强化学习系统由智能体(Agent)、状态(State)、奖赏(Reward)、动作(Action)和环境(Environment)五部分组成,系统示意图如下图所示。


智能体(Agent):Agent是整个强化学习系统核心。它能够感知环境的状态(State),并且根据环境提供的强化信号(Reward Si),通过学习选择一个合适的动作(Action),来最大化长期的Reward值。简而言之,Agent就是根据环境提供的Reward做为反馈,学习一系列的环境状态(State)到动作(Action)的映射,动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward,还会影响下一时刻甚至未来的Reward,因此,Agent在学习过程中的基本规则是:如果某个动作(Action)带来了环境的正回报(Reward),那么这一动作会被加强,反之则会逐渐削弱,类似于物理学中条件反射原理。

环境(Environment):环境会接收Agent执行的一系列的动作(Action),并且对这一系列的动作的好坏进行评价,并转换成一种可量化的(标量信号)Reward反馈给Agent,而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史(History)经历去学习。同时,环境还像Agent提供它所处的状态(State)信息。环境有完全可观测(Fully Observable)和部分可观测(Partial Observable)两种情况。

奖赏(Reward):环境提供给Agent的一个可量化的标量反馈信号,用于评价Agent在某一个时间步(time Step)所做action的好坏。强化学习就是基于一种最大化累计奖赏假设:强化学习中,Agent进行一系列的动作选择的目标是最大化未来的累计奖赏(maximization of future expected cumulative Reward)。

历史(History):历史就是Agent过去的一些列观测、动作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根据历史的动作选择,和选择动作之后,环境做给出的反馈和状态,决定如何选择下一个动作(At)。

状态(State):状态指Agent所处的环境信息,包含了智能体用于进行Action选择的所有信息,它是历史(History)的一个函数:St = f(Ht)。
可见,强化学习的主体是Agent和环境Environment。Agent为了适应环境,最大化未来累计奖赏,做出的一些列的动作,这个学习过程称为强化学习。
3、强化学习的基本要素
一个强化学习系统,除了Agent和环境(Environment)之外,还包括其他四个要素:策略(Policy,P)、值函数(Value Function,V)、回报函数(Reward Function ,R)和环境模型(Environment Model),其中,环境模型是可以有,也可以没有(Model Free)。这四个要素之间的关系如下图所示。


策略(Policy):表示状态到动作的映射。策略的表达式如下。


定义Agent在t时刻的行为方式,直接决定Agent的行动,是整个强化学习系统的核心。策略pi : S X A -> [0,1]或者pi: S -> A,表示在状态S下选择动作A的概率,其中,S代表Agent所有状态State的集合(状态空间),A代表Agent所有动作集合(动作空间)。在任意的状态(State)下,存在由策略pi组成了策略集合F,任意策略pi属于F,在策略集合存在一个使问题具有最优效果的策略pi,称为最优策略,强化学习的目的寻找最优的策略pi

回报函数(Reward Function):定义了强化学习问题的目标,Agent通过一些列的策略(Policy)选择,最终通过回报函数映射到一个Reward信号,产生关于一个动作好会的评价。Reward信号是一个标量,一般采用正数表示奖赏,负数表示惩罚。

值函数(Value Function):回报函数计算当前的策略的好坏,但没法衡量策略未来的好坏,因此,通过值函数(Value Function)来预测未来的Reward的值,从长远角度来评价策略的好坏。为什么需要从未来角度来衡量策略pi的好坏?有两个原因:1、环境对于策略的给出的评价往往是由延迟的;2、Agent选择的当前动作或者策略,会对未来的状态或者策略选择产生影响,Agent在进行动作选择时,某些动作产生的当前回报值比较高,但从长远来看,可能并没有那么高。因此,需要采用值函数(Value Function)来评估Agent所处的状态的好坏,指导Agent进行动作(Action)的选择。值函数的表达式如下。


环境模型(Environment Model):它使强化学习系统中可选的部分。将强化学习和动态规划等方法结合在一起,环境模型用于模拟环境的行为方式,比如,给定一个状态和动作情况下,环境模型可以预测下一步的状态和回报。借助环境模型,Agent可以在进行策略选择时,考虑未来可能发生的情况,提前进行规划。用P表示下一步状态,R表示下一步的回报,环境模型可以表示成如何形式。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容