强化学习的基本概念

强化学习是机器学习领域的一个分支,通过不断的与环境交互,不断的积累经验,最后让Agent学会如何在目标环境中取得最高的得分。在本篇文章中,笔者将介绍一些强化学习的基础知识,文章中不会涉及任何数学公式。

强化学习的基本过程

强化学习RL的整个过程就好比一个游戏玩家去探索一款新的游戏,通过一次一次的与游戏交互,学会一套操作得到最高分。

玩家是怎么探索游戏的呢?首先玩家观察游戏的场景,往往是游戏当前的图像。然后,玩家输入一套操作作用于游戏,然后游戏会给玩家一个反馈,比如得分,之后游戏转换到下一个场景。最后,玩家通过得分来判断自己的操作的优劣,如果分数增加,那么下一次遇到整个场景的时候就继续使用这一套操作,如果分数减少,那么就换一套操作。整个过程不断反复,玩家最终学会一套操作来拿到最高分。

在强化学习中玩家一般被称为智能体(Agent)而游戏被称为环境(Environment),智能体根据环境的状态(State),通过一个策略函数,输出一个行为(Action),将行为作用于环境,环境再给予智能体奖励(Reward),同时环境会转移到下一个状态。最终,找到一个最优的策略,使得智能体可以尽可能多的获得来自环境的奖励。整个过程如下图所示:

image

Model-based和Model-free

在强化学习领域,对于强化学习模型的分类可以分为Model-based和Model-free。这里的Model-based和Model-free,很多人给翻译成了有模型和无模型,笔者不赞成这种翻译,容易造成误导。事实上无论是Model-based还是Model-free,他们都具有算法模型。

两者的不同之处在于,前者会观察环境的状态,模拟环境的工作机制,可以理解为创建一个虚拟的环境。通过这个虚拟的环境,预测动作可能造成的环境状态的变化以及可能收集到的奖励,再通过动态规划的方式找出一条最优路径,即最优的动作决策。说的直白一点就是Model-based类的强化学习模型会通过模仿环境,在脑海里先演算一下采取某种动作之后会造成环境怎样变化,环境变化之后再采取某种动作,如此反复,最后找出一个最优的决策,最后再落实到真实环境中。就好比下象棋的时候,玩家会在脑海里先思考自己下某一步棋之后,对手会如何反应,对手反应之后自己应该如何应对,思考n步之后的情况,找出最有优势的一套下棋步骤再去落子一样。

因此,在判断模型是Model-based还是Model-free,只需要思考,该模型是否能预测往后n步的环境状态。

由于Model-based模型需要创建一个虚拟的环境,可以理解为需要了解环境的运作机制,所以笔者倾向于将Model-based翻译为环境相关性模型。而Model-free模型不需要了解环境的运作机制,所以笔者倾向于翻译为环境无关性模型。

基于概率和基于值

强化学习的模型有两种流派,一种是基于值的模型,另一种是基于概率的模型。两者的区别在于,模型到底如何去选择哪种动作,即策略函数的输出。

基于值的模型,在接受到环境的状态信息之后,会输出动作空间中每一个动作反馈到环境中可能得到的奖励,一般取得到奖励最大的那个动作即可。基于值的模型,往往用于解决离散型动作空间的情况。经典的模型有基于Q-learning算法得到的DQN,Double-DQN等模型。

基于概率的模型,在接受到环境的状态信息之后,会直接输出动作空间中,采取每一个动作的概率,之后根据动作空间的概率分布作采样,得到一个或者一组动作。基于概率的模型,往往用于解决连续型动作空间的情况。经典模型有Policy Gradient算法以及Actor-crictic模型等等。

离散型动作空间和连续型动作空间

这里讲一下什么是离散型动作空间,什么是连续型动作空间。离散型动作空间很好理解,比如玩游戏时,控制角色前后左右移动,就是一个离散的行为,就是这么确定的一组行为。连续型动作空间指的是例如汽车方向盘转动的角度,可选范围可以是0~360度,甚至可以更细化一些,细化到什么粒度无法确定。

其实将连续型动作空间按某种粒度切分,例如将0~360度划分为0,1,...,360,那么其实也可以作为离散值。那么为什么还要提出基于概率的模型来解决这个问题呢?原因在于,即使通过某种粒度将连续型动作划分成离散值,但是划分之后的动作空间会相当大,预测每一个动作的值很耗费计算资源,其次采样也变得很耗时。而输出动作分布之后,则可以根据分布进行随机采样,得出一个或者一组动作。当然,连续型动作空间的采样也很费时,不过DeepMind已经提出了DDPG模型来解决了这个问题。

回合更新和单步更新

在强化学习模型的训练过程中,更新模型参数的方式有两种,一种是回合更新,另一种是单步更新。单步更新意味着,在每一次模型和环境交互之后,立即更新参数。另一种是执行完一个行为序列,即多个交互之后,将梯度收集在一起,再作更新。这就好比玩游戏,回合更新指的是在一个游戏回合之后进行参数更新,单步更新指的是在每一步进行参数更新。

实际上,在进行模型训练的时候,会倾向于选择可以单步更新的模型,因为单步更新的效率比回合更新要高一些。

在线学习和离线学习

在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。

在线学习看起来好像和单步更新差不多,离线学习好像也和回合更新差不多,但实际上毫无关联,不能混淆。在线学习模型,可以采用回合更新的方式,即在回合中每次交互之后的时候将梯度计算好,保存起来,回合结束之后批量更新。离线学习模型也可以采用单步更新的方式,每一个交互产生之后,就从存储的经验中拿出一批数据计算梯度,更新参数,这一过程称为经验回放。

数据相关性

这里的数据指的是智能体与环境交互而得来的经验。那么什么是数据相关性呢?数据相关性指的是数据之间的依赖关系。在强化学习的过程中,环境当前所处的状态,往往由上一个状态转移过来,环境未来的状态,也是由当前状态转移过去的。因此,数据之间有着时间上的依赖。

在线学习模型中,这种相关性导致了对交互经验的利用不充分,一份交互经验往往只会学习一次,或者比较少的几次。这种情况下,模型并不能充分完成经验的学习。离线学习模型的提出,就是为了解决这一问题。通过将交互经验存储起来,通过经验回放的方式进行学习,一份经验可以学习多次,这样就可以让模型充分利用现有的经验。

到此,强化学习的一些基本概念介绍完成了。强化学习涉及到的领域知识非常多,笔者根据自己所了解的知识,总结了以上基本概念,欢迎批评指正。

Reference

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/

https://blog.csdn.net/ppp8300885/article/details/78524235

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容