深入理解:强化学习之Successor Representation

前面写过两篇论文解读,都是关于Successor Features在迁移强化学习中的应用(点击进入第一篇点击进入第二篇)。这两篇文章都是基于强化学习中的Successor Representation (SR)概念发展出来的,今天我们来详细探讨一下这里的Successor Representation。

【背景及发展脉络】

一般强化学习算法分为两类:model-based和model-free。Model-based的算法通过reward函数和(或)状态转移函数的学习来估计值函数;而后者不考虑模型的具体表达形式,从状态-动作-奖励序列信号中直接估计值函数。

以上两类算法各有优劣,从算法的计算效率来看,model-free更胜一筹,因为它从经验数据中对值函数进行估计,不需要对状态空间中的所有状态进行遍历,因此特别适用于像神经网络这样基于数据的函数拟合器。但是其缺点就是一旦采样数据的分布发生变化,或者环境发生了变化,则之前学习到的参数统统失效,甚至有的时候一些细微的变化都会导致性能大幅度下降,也就是所谓的“灾难性遗忘(catastrophic forgetting)”问题。因此,从算法的灵活性来看,model-free的算法表现较差。而model-based算法则正好反过来,它在计算效率上不如model-free算法节省资源,但是模型更加灵活。这是因为model-based算法具有模型本身的一些先验知识,因此当环境发生变化的时候,可以从模型参数上对模型进行相应的修正,则算法依然能够表现得很好。但是这类算法在状态空间比较大的时候,将会特别消耗计算资源,甚至不可求解。

那能不能找到一种算法,能够从计算效率(efficiency)和灵活性(flexibility)之间进行折中呢?这就引入了今天要介绍的Successor Representations。

Successor Representation最早由MIT的Peter Dayan于1993年提出(点击论文链接) [1],以下我们简称SR。考虑到TD算法的核心是估计从当前时刻开始到未来的累积奖励值(value function),Dayan认为这个值和后继状态的相似度关系密切。如果有一个很好的表征(representation)能够描述当前状态到未来某个状态的转移特性,则value function就可以分解为两个部分,一部分是这个表征,另一部分描述奖励函数。于是他提出了SR的方法,结合TD learning的优势和基于模型算法的灵活性,使得该算法被称为除了model-based和model-free的第三类强化学习算法 [2, 3]。

SR算法刚开始提出来,并没有受到太多重视。直到近几年随着深度学习和强化学习技术的发展,有人开始注意到基于SR的强化学习的优势。特别地,在算法灵活性上,由于SR对环境的依赖性并不像TD-learning那么大,因此在迁移强化学习领域特别受到重视。比较典型的利用SR来做迁移强化学习的文章请参考 [3-6]。

为了研究基于SR表征的生理学基础,Momennejad等人在《Nature》的“人类行为”子刊上发表文章,在人类和啮齿类动物上做了大量的实验,来证明SR具有一定的生物学基础 [7]。另外Gershman也从行为学、神经科学的角度,对SR的计算逻辑和神经学基础进行了详细的分析,并认为SR在计算效率和灵活性上,相较于 model-based 和 model-free 实现了很好的折中 [2],如下图所示。

算法效率、灵活性比较图

【SR的定义及其和强化学习的关系】

SR将智能体在当前时刻的状态用一个特征来表示,该特征不仅和当前状态有关,还和未来时刻的后继状态序列有关,因此,和智能体所使用的策略也有关系。SR并没有否定传统强化学习的理论框架,而是在其基础上,提出了一种新的思路来求解最优策略。SR可以被定义为:

M(s, s^\prime, a) = \mathbb{E}\left[ \sum_{t=0}^{\infty}{\gamma^t \mathbb{1}[s_t=s^\prime] | s_0=s, a_0=a} \right],    (1)

其中\mathbb{1}[\cdot]=1如果括号里的为真,0则表示为非真。可以看出,(1)式也可以写成Bellman方程:

M(s, s^\prime, a) = \mathbb{1}[s_t=s^\prime] + \gamma \mathbb{E}{\left[ M(s_{t+1}, s^\prime, a_{t+1}) \right]}.    (2)

因此,给定一个SR,基于策略\pi的Q函数就可以表示为:

Q^{\pi}(s, a) = \sum_{s^\prime \in \mathcal{S}}{M(s, s^\prime, a) R(s^\prime)}.    (3)

当然,这里的(3)式要想求得精确值,需要对状态空间中的每一个状态s^\prime进行遍历求解,这极其消耗计算资源。为此,Kulkarni等人在 [3] 中用非线性函数拟合器来逼近这里的Q函数(即(3)式)。

首先,他们将每个状态用一个D维的特征向量\phi_s来表示,并用一个参数化的神经网络将状态映射到特征空间中,即f_{\theta}: \mathcal{S} \rightarrow \mathbb{R}^D。针对每个\phi_s,再定义一个基于特征的SR,记作m_{sa}。然后用另外一个神经网络u_{\alpha}(\phi_s, a)来拟合m_{sa}。除此之外,对于reward函数,用一个权重向量\boldsymbol{w}\phi_s作线性组合得到reward函数的近似值,即\phi_S: R(s) \approx \phi_s \cdot \boldsymbol{w},其中\boldsymbol{w} \in \mathbb{R}^D

经过以上的操作,(3)式对Q函数的求解,可以转化为:

Q^{\pi}(s, a) \approx m_{sa} \cdot \boldsymbol{w}.    (4)

m_{sa}则可以通过Bellman方程求解:

m_{sa} = \phi_s + \gamma \mathbb{E}{\left[ m_{s_{t+1}a^\prime} \right]}.    (5)

其中,a^\prime = \arg\max_a{m_{s_{t+1}a} \cdot \boldsymbol{w}}.    (6)

以上就是基于SR做强化学习的基本模式,这种方式使得Q函数的求解转化为1)SR的求解和2)权重\boldsymbol{w}的求解。可以发现,前者的学习由于具有Bellman方程形式,因此一般的强化学习算法都适用于求解该问题;对于后者,则普通的监督学习算法就可以拟合了。SR作为环境状态的一种表征,对不同的任务具有一般性,因此这种算法求出来的模型比较稳定和灵活。不同的\boldsymbol{w}可以代表不同的任务,所以也具有一定的可迁移性。

在此基础上,由于Barreto等人发现了基于SR强化学习的可迁移性优势,于是提出了基于Successor Feature(SFs)和Generalized Policy Improvement(GPI)的迁移强化学习框架。关于这部分内容,请各位参考我前面的两篇文章:1)论文解读:Successor Features for Transfer in Reinforcement Learning;2)论文解读:Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

【SR的优势和缺点】

尽管基于SR的强化学习具有一定的迁移性,但是毕竟状态的转移是和策略息息相关的。一旦策略发生变化,则学习出来的SR或者SFs仍然需要继续学习才能保持其准确性。也就是说,对于迁移强化学习来说,它仍具有一定的不足。

Lehnert等人在 [8] 中,专门针对基于 SFs 迁移强化学习的优势和限制进行了研究和分析。在单任务强化学习中,基于SFs的算法在收敛速度上不如Q-learning快。这是因为基于SFs的学习在一开始不仅要学习特征,还要拟合reward函数,因此在效率上不如Q-learning。

在多任务强化学习学习中,虽然任务的初始学习速度不如Q-learning快,但是当reward函数发生一点变化之后,SFs的性能表现出了更好的鲁棒性。但是这种好的性质,在reward函数发生较大变化的情况下,则不是很明显。

因此,在迁移强化学习中,基于SFs的算法性能仍是有限的。一旦在源任务上学到了最优策略\pi^*,其SR或者SFs就和\pi^*密切相关。要想在目标任务上快速得到新的最优策略,学习一个新的SR或者SFs是不可避免的,这就又回到迁移强化学习问题本身来了。

【总结】

SR作为一种状态表征方式,结合了model-based和model-free两类算法的优势,使得基于SR的算法在模型灵活性和计算效率上有一个较好的折中。SR的这一特点被应用在了迁移强化学习中,但是仍然具有一定的限制。对于迁移强化学习来说,如果能从不同任务、不同环境中找到一个可迁移的特征表达,那再好不过了。但是Successor Representation却不具备理想的特征可迁移性,因为它依赖于一个特定的策略。一旦学到了某个任务最优策略的SR,则不太容易直接将它迁移到另一个不同任务的最优策略上。

【参考文献】

[1] Dayan, Peter. "Improving generalization for temporal difference learning: The successor representation." Neural Computation 5, no. 4 (1993): 613-624.

[2] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates." Journal of Neuroscience 38, no. 33 (2018): 7193-7200.

[3] Kulkarni, Tejas D., Ardavan Saeedi, Simanta Gautam, and Samuel J. Gershman. "Deep successor reinforcement learning." arXiv preprint arXiv:1606.02396 (2016).

[4] Zhang, Jingwei, Jost Tobias Springenberg, Joschka Boedecker, and Wolfram Burgard. "Deep reinforcement learning with successor features for navigation across similar environments." In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2371-2378. IEEE, 2017.

[5] Barreto, André, Will Dabney, Rémi Munos, Jonathan J. Hunt, Tom Schaul, Hado P. van Hasselt, and David Silver. "Successor features for transfer in reinforcement learning." In Advances in neural information processing systems, pp. 4055-4065. 2017.

[6] Barreto, Andre, Diana Borsa, John Quan, Tom Schaul, David Silver, Matteo Hessel, Daniel Mankowitz, Augustin Zidek, and Remi Munos. "Transfer in deep reinforcement learning using successor features and generalised policy improvement." In International Conference on Machine Learning, pp. 501-510. 2018.

[7] Momennejad, Ida, Evan M. Russek, Jin H. Cheong, Matthew M. Botvinick, Nathaniel Douglass Daw, and Samuel J. Gershman. "The successor representation in human reinforcement learning." Nature Human Behaviour 1, no. 9 (2017): 680-692.

[8] Lehnert, Lucas, Stefanie Tellex, and Michael L. Littman. "Advantages and limitations of using successor features for transfer in reinforcement learning." arXiv preprint arXiv:1708.00102 (2017).

[9] Barreto, André, Shaobo Hou, Diana Borsa, David Silver, and Doina Precup. "Fast reinforcement learning with generalized policy updates." Proceedings of the National Academy of Sciences (2020).

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容