学习强化学习

行为主义理论

这是来自心理学和教育研究的理论,心理学中也有专门的行为心理学派,主要通过人的各种行为研究心理的活动,在教育心理学更多应用,给学习者设定各种刺激和奖励等措施,来看是否对学习的效果是否有提高。
强化学习就是借鉴这种思想在一些决策系统上应用,现在深度学习和强化学习的结合也越来越多,更大提高机器的智能。
目前工业界普遍使用的策略都是人为整理设定的一堆规则,所以算法也是基于规则推理,或者加上关联分析和规则合并,显然人力成本高而且泛化能力不足。而强化深度学习的结合就是解决这类问题,强化学习只需要一些目标,而深度学习需要很多的独立同分布样本,强化学习弥补了这些缺点,而在更多人机交互和语言处理的环境下,比如智能问答这些结合可以更好提升模型应用能力。

正如我们开始学语言也是开始模仿开始,然后可能根据反馈来纠正,强化学习就是这种行为模式,行为主义理论,也就是行为主义学习理论,又叫刺激-反应理论。是当今学习里的主要流派之一,就像人类开始认识大自然一样,我们没有什么先验知识,我们学习可以不要准备直接进入环境,然后不断调整。这是水会窒息,这是水果可以吃,然后我们得到了激励和惩罚,从而做出反应。

比较专业的心理学上解释,行为主义者认为,学习时刺激和反应之间的联结,基本假设是,行动是学习者对环境刺激所做出的反应,他们把环境看成是刺激,把伴而随之的有机体行为看做是反应,认为所有行为都是习得的。行为主义学习理论应用在学校教育实践上,就是要求教师掌握塑造和矫正学生行为的方法,为学生建立一种环境,尽可能在最大程度上强化学生的合适行为,消除不合适的行为。

强化学习理论

借鉴行为主义理论来看强化学习就比较形象了。强化学习系统主要由几个部分组成,一个是智能体(agent),状态(state)、奖赏(reward)、动作(action)和环境(environment)。

智能体:agent就是整个强化学习系统的核心。它能够感知环境的状态(state),并且根据环境提供的奖励(reward)信号,然后通过选择一个合适的动作(action),来较大化长期的reward值。这就向我们学习的过程设立长期目标和短期目标类似,短期目标可能会根据学习的效果和进度进行调整。
同样agent在学习过程中也是看某个动作代理环境的正回报,比如成绩提高了,升级了,那么这一动作会被加强,反之则会逐渐减弱。

Environment:环境会接受Agent执行的一系列的动作(Action),并且对这一系列的动作的好坏进行评价,并转换成一种可量化的标量(标量信号)Reward反馈给Agent、而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史经历去学习。同时环境还像Agent提供它所处在的状态信息。

Reward:环境提供给Agent的一个可量化的标量反馈信号,就像我们得到多少红花,打分,升级等,是对我们动作的评价,Agent的一系列动作的目标就是使得未来的累计奖赏尽可能大,可能是在当前状态下选择个最大可能的动作。

state:状态就是agent所处的环境信息,包含了agent用于进行Action选择的所有信息,它是历史(History)的一个函数:St =f(Ht)

简单说就是智能体在环境中处于某个状态(state)下,根据当下状态St,选择一个动作at;受到环境的影响,环境发生变化,转换到新的状态st+1;环境反馈给智能体一个奖励(正向为奖励,负向则为惩罚)

强化学习主要用在需要大量类人决策的系统,比如对答系统,AI游戏,智能炒股投资,自动驾驶,个性化医疗、智能教育等。

常见的强化学习仿真环境平台有MuJoCo、OpenAI Gym,rllab,
DeepMind Lab,TROCS,PySC2等。

最常见的强化学习应用就是游戏,比如我们走象棋,可以把棋子所在格子当做状态,上下左右的走可以设定为action,而能吃掉对方或包围更多对方设为奖励。
更多的复杂游戏如 flappy bird 超级玛丽等等游戏都可以通过这种方式自动学习。
当然现在深度强化越来越强,之前AI星际战胜了人类高手,也开启了再复杂策略游戏的探索。
我们知道dota 、王者荣耀、星际这类策略游戏更为复杂,而且最终的获胜也是各种状态,就拿环境来说就不只是平面,还有更多障碍物,高低程度,动作也能使一系列的攻击,不同的组合是不同的,使用魔法技能大招的破坏也不同,还有可以捡物品买卖物品和使用物品等,甚至可以合体。状态空间是非常大的,星际类更为多的是可以建立建筑物,还可以将军队分组,这也是攻防的动作之一,更为复杂这样也就是为何加入了深度学习。

image.png

离线策略和在线策略

米卢喜欢告诉队员们,多看电视看对手比赛视频,可以分析对手可以思考自己的策略,比如你对位的特点,这就类似一种离线学习,当然更好的的是打模拟游戏,或是在和队友和陪练的对弈下训练。一般足球队也会有主力队,也可以叫一队伍,当然还有替补的二队,就是为了更多人可以训练。

在线学习就是“learn on the job”
就是直接在做中学,这时候可能荟碰到很多麻烦,就出错了。
离线学习就是“Look over someone‘s shoulder’”
在实验模拟中看别人的样例演示
比如看韩国队比赛,然后看他对手的策略

离线学习重要性,可以更好的适应对手
根据视频的韩国队的对手的策略,可以基本采用适合的阵型,然后直接开始
根据视频或模拟学到的策略,继续更多使用这些经验
然后我们在使用时候探索哪个比较奏效,然后作为最优选择,就更多使用这个,比如更好的防守效果,攻击更多的对方的弱点
再可能从一个策略生成多个策略,比如看到韩国的后防转身比较慢,就可以多采用长传渗透和边路快速突袭的策略,进而可以组合多种新战术。

比如自动驾驶和电力的安全稳定控制系统就更需要了,很多规则需要离线模拟来学习。
具体在强化学习里就更多看的是训练数据集,是离线数据集上的学习到的策略就是离线策略。重点的区别是在离线时候可以看历史数据直接选择,而在线的时候我们是看不到的,不一定能选到最优。所以本质强化就是启发式的选择过程,不是单一目标的最优化预测过程。
在线学习比如sarsa ,离线学习则比如Qlearning。

理解环境

根据agent是否理解环境,可以分为model-free RL和model-based RL
主要区别就是在训练之前是否对环境作虚拟建模,没有虚拟建模则是model-free,就像 Q learning、Sarsa、Policy Gradients 都是从环境中得到反馈然后从中学习。model-based RL会先对真实的世界进行建模,然后在虚拟的环境进行练习。比如我们自动驾驶,虚拟的环境就可以更为复杂的,多变的,可能比现实更多可能,而不理解环境的就是直接丢进现实世界,碰撞的反应来学习,这样肯定没几下就报废了。
又像我们开发的测试环境和生产环境,一般在测试环境可以更多组合,更多架构和选型,会有更多的策略测试探索。
model-free RL只能是根据具体的反馈来进行下一步策略的选择,就像语音机器人,很多是要按照人的发出的指令进行下一步,再根据人的反应来接下一步。
而model-based可以主动想象反馈可能性,然后基于场景去主动互动。
所以model-based的RL更有想象力

基于概率和基于价值

强化学习方法又可以分为基于概率(Policy-based)和基于价值(value-based)的,主要看action的判断策略。
基于概率的方法各个动作是有随机概率,选择哪个是不一定的,而基于价值的方式都会选择一个最大价值的动作,当然如果是一系列连续动作,基于价值的方式就不适用,而基于概率的策略就比较适宜,比如打即时策略时候电脑的动作也有随机性,而下象棋的电脑往往是固定的步骤,因为是最优选择。

基于概率的RL有Policy Gradients ,基于价值的RL有Qlearning ,Sarsa
还有两种结合的actor-Critic
actor-critic从字面意思就比较容易理解,是演员和裁判的结合,actor像演员,体操、篮球扣篮赛等,具有表演和创造型的动作策略,一般是有个大致的规则,但是在动作时候,个体是随机的,不可能都每步去限制它,那就根本无法看下去了。就像你看球赛一直不断暂停的话,也就不好看。


image.png

actor是基于概率的可能进行某些动作,比如扣篮可能失败,然后运动员表演会增加即兴表演,而或者根据情况改变动作,打分的就是基于价值的策略,看动作舒展,高度,制空,创新性等。


image.png

组合策略的方式可以不打断actor的过程,同时在一轮行动更新评价,根据连续动作来评分。

回合更新和单步更新

假设强化学习就是在玩游戏,游戏回合有开始和结束。回合更新指的是游戏开始后,需要等待游戏结束再总结这一回合,再更新我们的行为准则。而单步更新则是在游戏进行中每一步都在更新,不用等待游戏的结束,这样边玩边学习。现在一般都是边玩边学。

参考

莫烦的课程还是比较实用通俗,但他主要专注工业应用,而且自己讲课分享
https://mofanpy.com/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352