【5分钟 Paper】Prioritized Experience Replay

论文题目：Prioritized Experience Replay

在这里插入图片描述

所解决的问题？

Experience replay能够让强化学习去考虑过去的一些经验，在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键，因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式，来提高学习的效率。

参考文献【1】：Lin, Long-Ji. Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8(3-4):293–321, 1992.

背景

之前的做法像DQN基本上都是从记忆库中sample一些experience data出来之后给model update一次之后就被丢弃了。但是这里会有些问题，就是如果采样方式比较好的话一来会切断数据之间的相关性，二来，对于一些相似度高的数据可以少采样一点，而很少见的数据可以多拿来更新几次。

作者从以下文献获得灵感：

Experiences with high magnitude TD error also appear to be replayed more often(Singer & Frank, 2009; McNamara et al., 2014).

参考文献1：Singer, Annabelle C and Frank, Loren M. Rewarded outcomes enhance reactivation of experience in the hippocampus (海马体). Neuron, 64(6):910–921, 2009
参考文献2：McNamara, Colin G, Tejero-Cantero, ´Alvaro, Trouche, St´ephanie, Campo-Urriza, Natalia, and Dupret, David. Dopaminergic neurons promote hippocampal reactivation and spatial memory persistence. Nature neuroscience, 2014.

The TD error provides one way to measure these priorities (van Seijen & Sutton, 2013). 作者将这种方法用于model-free的强化学习中，而非model-base的方法中。

van Seijen, Harm and Sutton, Richard. Planning by prioritized sweeping with small backups. In Proceedings of The 30th International Conference on Machine Learning, pp. 361–369, 2013.

做replay memory之前我们需要明确两个点。选择什么样的experiences去存储，选择什么样的experience去replay，怎么实现？作者只解决后面这个问题。

所采用的方法？

prioritized replay 中一个核心的问题就是如何来选择这个transition (s,a,r,s')，作者采用TD-error来衡量transition的重要性(how far the value is from its next-step bootstrap estimate (Andre et al., 1998))。

参考文献1：Andre, David, Friedman, Nir, and Parr, Ronald. Generalized prioritized sweeping. In Advances in Neural Information Processing Systems. Citeseer, 1998.

greedy TD-error prioritization会产生一些问题：1. TD-error的样本可能永远不会被采样到；2. 整个算法对噪声会非常敏感；3. TD-error大的样本很容易使得神经网络过拟合(因为一直采样TD-error大的样本)。

stochastic sampling method

基于以上几点，作者提出stochastic sampling method，介于pure greedy prioritization和uniform random sampling之间的一种采样方法。the probability of sampling transition $i$ as：

$P(i) = \frac{p_{i}^{\alpha}}{\sum_{k}p_{k}^{\alpha}}$

其中 $p_{i} >0$ ， is the priority of transition $i$ ，指数 $\alpha$ determines how much prioritization is used，当 $\alpha =0$ 时，就是随机选(uniform case)。

对于上述的 $P(i)$ ，作者提出了两个变种：

proportional prioritization： $p_{i}=|\delta_{i}| + \varepsilon$ ， $\delta{i}$ 表示TD-error， $\varepsilon$ 表示一个很小的正数。这么做的目的是希望TD-error为0的样本也能被采样得到。
rank-based prioritization： $p_{i} = \frac{1}{\text{rank(i)}}$ ，其中 $\text{rank(i)}$ 表示依据 $|\delta_{i}|$ 的排序结果。In this case, $P$ becomes a power-law distribution with exponent $\alpha$ .

对于上述算法的实现细节：如下所示：

算法细节描述

For the rank-based variant：我们可以用一个分段线性函数来近似累积密度函数， $k$ 段的概率是相等的。分段边界可以预先计算出来（因为只与 $N$ 和 $\alpha$ 有关系）。在运行时，我们选择一个片段，然后在这个片段中的所有transition中均匀地采样。选 $k$ 为minibatch的大小,从每一个片段中选出一个transition-这是一种分层抽样,可以平衡minibatch。意思就是先划分片段，然后从里面随机抽。

For the rank-based variant细节
Proportional prioritization

Proportional prioritization

Annealing the bias(为减少bias)

随机更新对期望值的估计依赖于与预期相同的分布相对应的更新。优先重放机制引入了bias，它以一种不受控制的方式改变了这个分布，因此改变收敛结果（即使策略和状态分布是固定的）。通过引入importance-sample (IS) weights来弥补：

$w_{i} = (\frac{1}{N} \cdot \frac{1}{P(i)})^{\beta}$

其中 $\frac{1}{N}$ 表示样本最开始服从的分布， $\frac{1}{P(i)}$ 表示的是样本引入优先级之后的分布。但是我们就是要做有偏估计，所以引入 $\beta$ 系数控制有偏和无偏的量，一旦有偏估计之后算法收敛性无法保证，因此可以随着迭代次数增加 $\beta$ 慢慢变成1。

算法伪代码如下图所示：

Prioritized Experience Replay算法流程

取得的效果？

实验效果

可以看出，rank-based的方法和proportional的方法都能加速收敛。

所出版信息？作者信息？

这篇文章是ICLR2016上面的一篇文章。第一作者Tom Schaul是Google DeepMind的Senior research Scientist，PostDoc at New York University from 2011-2013, PhD Student at IDSIA from 2007-2011。

在这里插入图片描述

参考链接

https://zhuanlan.zhihu.com/p/38358183

扩展阅读

Some transitions may not be immediately useful to the agent,but might become so when the agent competence increases (Schmidhuber,1991).

参考文献：Schmidhuber, J¨urgen. Curious model-building control systems. In Neural Networks, 1991. 1991 IEEE International Joint Conference on, pp. 1458–1463. IEEE, 1991.

TD-errors同时也有被用于 explore (White et al., 2014) or which features to select (Geramifard et al., 2011; Sun et al., 2011)

参考文献 1：White, Adam, Modayil, Joseph, and Sutton, Richard S. Surprise and curiosity for big data robotics. In Workshops at the Twenty-Eighth AAAI Conference on Artiﬁcial Intelligence, 2014.
参考文献 2 Geramifard, Alborz, Doshi, Finale, Redding, Joshua, Roy, Nicholas, and How,Jonathan. Online discovery of feature dependencies . In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 881–888, 2011.
参考文献 3：Sun, Yi, Ring, Mark, Schmidhuber, J¨urgen, and Gomez, Faustino J. Incremental basis construction from temporal difference error. In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 481–488, 2011.

我的微信公众号名称：深度学习与先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,001评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,210评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,874评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,001评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,022评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,005评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,929评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,742评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,193评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,427评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,583评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,305评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,911评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,564评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,731评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,581评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,478评论 2赞 352