各种RL算法

1. RL算法的分类


现代RL中一种非详尽但有用的算法分类

在现代RL空间中绘制精确的,无所不包的算法分类法真的很难,因为算法的模块性没有用树结构很好地表示。此外,为了使某些东西适合页面并且在介绍文章中可以合理地消化,我们必须省略相当多的更高级的材料(探索,转移学习,元学习等)。也就是说,我们的目标是:

1. 强调深度RL算法中最基本的设计选择,包括学习内容和学习方法,

2. 揭示这些选择中的权衡,

3. 并针对这些选择将一些突出的现代算法放入上下文中。

2. Model-Free vs Model-Based RL

RL算法中最重要的分支点之一是agent是否可以获得(或学习)环境模型的问题。我们提到的环境模型,我们指的是一种预测状态转换和奖励的函数。

拥有模型的主要好处是,它允许agent通过提前思考,查看一系列可能的选择会发生什么,以及明确决定其选项来进行规划。然后,agent可以将结果从提前计划中提取到学习策略中。这种方法的一个特别着名的例子是AlphaZero。当这种方法有效时,与没有模型的方法相比,它可以显着提高样本效率。

主要缺点是agent通常无法获得环境的真实模型。如果agent想要在这种情况下使用模型,它必须纯粹从经验中学习模型,这会产生一些挑战。最大的挑战是模型中的偏差可以被agent利用,从而导致agent在学习模型方面表现良好,但在真实环境中表现得次优(或非常可怕)。模型学习从根本上来说很难,所以即使是非常努力——愿意花费大量时间并对其进行计算——也无法获得回报。

使用模型的算法称为基于模型的方法,而不使用模型的算法称为无模型。虽然无模型方法放弃了使用模型的样本效率带来的潜在增益,但它们往往更容易实现和调整。截至撰写本简介(2018年9月)时,无模型方法比基于模型的方法更受欢迎,并且得到了更广泛的开发和测试。

3. What to Learn

RL算法中的另一个关键分支点是要学习什么的问题通常可能的名单包括

1. 策略,无论是随机的还是确定的,

2. 动作值函数(Q函数),

3. 值函数,

4. 和/或环境模型。

3.1  What to Learn in Model-Free RL

使用无模型RL表示和训练agent有两种主要方法:

Policy Optimization - 策略优化. 此系列中的方法将策略明确表示为\pi_{\theta}(a|s)。它们直接通过性能指标J(\pi_{\theta})上的梯度上升来优化参数\theta,或者通过最大化J(\pi_{\theta})的局部近似来间接地优化参数\theta。此优化几乎总是以on-policy的方式运行,这意味着每个更新仅使用根据最新版本的策略执行时收集的数据。

策略优化通常还涉及学习on-policy值函数 V_{\phi}(s)的近似值V^{\pi}(s),用于确定如何更新策略。策略优化方法的几个例子是:

1. A2C / A3C,执行梯度上升以直接最大化性能,

2. 和PPO,其更新间接地最大化性能,通过最大化替代目标函数,该函数给出保守估计J(\pi_{\theta})将由于更新而改变多少。

Q-Learning. 该系列中的方法学习最优动作值函数Q ^ *(s,a)的近似值Q _ {\theta}(s,a)。通常,它们使用基于Bellman方程的目标函数。此优化几乎总是以off-policy的方式运行,这意味着每次更新都可以使用在训练期间的任何时间点收集的数据,无论agent在获取数据时如何选择探索环境。通过Q ^ *\pi ^ *之间的连接获得相应的策略:Q-learning agent所采取的动作由下式给出:

                                                 a(s) = \arg \max_a Q_{\theta}(s,a).

Q-learning方法的例子包括

1. DQN,一个大规模推出DRL领域的经典之作,

2. 和C51,一种学习回报分布的变体,其期望值为Q ^ *

Trade-offs Between Policy Optimization and Q-Learning.

策略优化方法的主要优势在于它们是原则性的,在这种意义上,你可以直接针对你想要的东西进行优化。这往往使它们稳定可靠。

相比之下,Q-learning方法仅通过训练Q _ {\theta}来满足自洽方程,间接优化agent性能。这种学习有很多失败模式,因此往往不太稳定 [1]。但是,Q-learning方法的优势在于它们在工作时具有更高的样本效率,因为它们可以比策略优化技术更有效地重用数据。

Interpolating Between Policy Optimization and Q-Learning.

政策优化和Q学习并不矛盾(在某些情况下,事实证明,他们是等价的),并且存在一系列存在于两个极端之间的算法。处在这一范围内的算法能够在任何一方的优势和劣势之间进行谨慎的权衡。 例子包括

1. DDPG一种同时学习确定性策略和Q函数的算法,通过使用它们当中每一个来改进另一个,

2. 和SAC,一种使用随机策略,熵正则化和一些其他技巧来稳定学习并在标准基准上得分高于DDPG的变体。

[1] For more information about how and why Q-learning methods can fail, see 1) this classic paper by Tsitsiklis and van Roy, 2) the (much more recent) review by Szepesvari (in section 4.3.2), and 3) chapter 11 of Sutton and Barto, especially section 11.3 (on “the deadly triad” of function approximation, bootstrapping, and off-policy data, together causing instability in value-learning algorithms).


3.2  What to Learn in Model-Based RL

与无模型RL不同,基于模型的RL不存在少量易于定义的方法集群:使用模型有许多正交方法。我们举几个例子,但这个清单远非详尽无遗。 在每种情况下,可以给出或学习模型。

背景:纯粹的规划. 最基本的方法从未明确地表示策略,而是使用纯模型技术(如模型预测控制(MPC))来选择操作。在MPC中,每次agent观察环境时,它都会计算一个相对于模型最优的规划,其中规划描述了在当前之后的某个固定时间窗口内采取的所有动作。 (规划算法可以通过使用学习值函数来考虑超出视野的未来奖励。)然后,代理执行规划的第一个动作,并立即丢弃其余部分。它每次准备与环境交互时计算新规划,以避免使用规划范围短于预期的规划中的动作。

 \bullet  MBMF的工作探讨了MPC与深度RL的一些标准基准任务的学习环境模型。

专家迭代. 纯粹规划的直接后续涉及使用和学习策略\pi_{\theta}(a|s)的明确表示。agent在模型中使用规划算法(如蒙特卡罗树搜索),通过从当前策略中抽样为该规划生成候选动作。规划算法产生的动作优于单独的策略产生的动作,因此它是相对于策略的“专家”。之后更新策略以生成更类似于规划算法输出的动作。

\bullet  该 ExIt算法使用这种方法来训练深层神经网络玩Hex。

\bullet  AlphaZero 是这种方法的另一个例子。

无模型方法的数据增强. 使用无模型RL算法来训练策略或Q函数,但是要么1)在更新agent时增加虚构的实际经验,要么2)使用虚拟经验来更新agent。

\bullet  请参阅MBVE,了解增加虚构实际体验的示例。

\bullet  请参阅世界模型,了解使用纯粹的虚拟经验训练agent的例子,他们称之为“在梦中训练”。

将规划循环嵌入到策略中。另一种方法是将规划程序直接嵌入到作为子程序的策略中——以便完整规划成为策略的辅助信息 ——同时使用任何标准的无模型算法训练策略的输出。关键概念是,在此框架中,策略可以学习如何以及何时使用规划。这使得模型偏差不再成为问题,因为如果模型在某些状态下不适合规划,则策略可以简单地学会忽略它。

\bullet  有关具有这种想象力的agent的例子,请参阅I2A

6. 算法的链接


[2]. A2C / A3C (Asynchronous Advantage Actor-Critic): Mnih et al, 2016

[3]. PPO (Proximal Policy Optimization): Schulman et al, 2017

[4]. TRPO (Trust Region Policy Optimization): Schulman et al, 2015

[5]. DDPG (Deep Deterministic Policy Gradient): Lillicrap et al, 2015

[6]. TD3 (Twin Delayed DDPG): Fujimoto et al, 2018

[7]. SAC (Soft Actor-Critic): Haarnoja et al, 2018

[8]. DQN (Deep Q-Networks): Mnih et al, 2013

[9]. C51 (Categorical 51-Atom DQN): Bellemare et al, 2017

[10]. QR-DQN (Quantile Regression DQN): Dabney et al, 2017

[11]. HER (Hindsight Experience Replay): Andrychowicz et al, 2017

[12]. World Models: Ha and Schmidhuber, 2018

[13]. I2A (Imagination-Augmented Agents): Weber et al, 2017

[14]. MBMF (Model-Based RL with Model-Free Fine-Tuning): Nagabandi et al, 2017

[15]. MBVE (Model-Based Value Expansion): Feinberg et al, 2018

[16]. AlphaZero: Silver et al, 2017

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容