智慧8

姓名:黄睿

学号:22011110004

学院:通信工程学院

转自:https://zhuanlan.zhihu.com/p/99120143?utm_source=qq

【嵌牛导读】本文介绍几种多智能体强化学习中最佳方案

【嵌牛鼻子】强化学习最佳方案

【嵌牛提问】如何从整体构架上选择有效的多智能体方案?

【嵌牛正文】

这里分享一下A Survey and Critique of Multiagent Deep Reinforcement Learning这篇综述里面介绍的多智能体强化学习Best Practice。这部分内容大部分来自第四章,但是我根据自己的理解加上了其他的内容。

1.改良Experience replay buffer

1.1 传统的Single-agent场景之下的Replay buffer

Replay Buffer[90, 89]自从被提出后就成了Single-Agent强化学习的常规操作,特别是DQN一炮走红之后 [72] 。不过,Replay Buffer有着很强的理论假设,用原作者的话说是——

The environment should not change over time because this makes past experiences irrelevantor even harmful. (环境不应随时间而改变,因为这会使过去的experience replay变得无关紧要甚至有害)

Replay buffer假设环境是stationary的,如果当前的环境信息不同于过去的环境信息,那么就无法从过去环境的replay中学到有价值的经验。(画外音:大人,时代变了……别刻舟求剑了)

在multi-agent场景下,每个agent都可以把其他的agent当作环境的一部分。因为其他的agent不断地学习进化,所以agent所处的环境也是在不断变换的,也就是所谓的non-stationary。

因为multi-agent场景不符合replay buffer的理论假设,所以有的人就直接放弃治疗了——例如2016年发表的大名鼎鼎的RIAL和DIAL中就没有使用replay buffer。(原文题目 Learning to communicate with deep multi-agent reinforcement learning)

另一批人怀着还能抢救一下的态度,提出了许多改良Replay buffer的思路,下面简单介绍一下——

1.2 Multi-agent场景之下的改良版Replay buffer

如果说两个环境差别太大会导致无法学习,那么是不是可以认为两个差别较小的环境之间可以进行replay buffer共享呢?大多数对Replay buffer的改良思路都是基于增加时序信息,以挑选那些具有一定参考价值的buffer进行学习(disambiguate the age of the sampled data from the replay memory)

目前有两种具体的实现方式:

重要性采样(Multi-agent Importance Sampling),把联合动作概率(the joint action probability)纳入采样的过程。

2000年发表的[218] Eligibility traces for off-policy policy evaluation

指纹标记(Fingerprints),所谓的指纹就是一种可以标识sampled data新旧程度的value function。具体说就是把对其他agent policy的estimate添加到replay buffer中。

2017年发表的[168] Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning,提出了Fingerprints思想。

有一些Value-based方法使用了上面的思路

2017年发表的[166] Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability,即DEC-HDRQNs。

2018年发表的[35] Lenient Multi-Agent Deep Reinforcement Learning,即LDQN。LDQN在处理replay buffer方面与Fingerprint比较相似——LDQN把leniency value加到replay buffer中作为条件判断。(关于Lenient的概念会在后面介绍)

2018年发表的[178] Weighted double deep multiagent reinforcement learning in stochastic cooperative environments,即WDDQN。WDDQN中也使用了lenient reward。

有一些Policy-gradient方法也使用了上面的思路,例如MADDPG

关于Lenient的概念可以参考2010年发表的Lenient frequency adjusted Q-learning。

1.3 其他问题

还有许多学者思考如何把DRL思路融合进Replay buffer中,例如

2016年发表的[287] Combating Reinforcement Learning's Sisyphean Curse with Intrinsic Fear.

2016年发表的[111] Prioritized Experience Replay,

2017年发表的[286] Hindsight experience replay.

2018年发表的[96] Selective experience replay for lifelong learning,

2018年发表的[288] Experience selection in deep reinforcement learning for control.

2. 中心化学习与非中心化执行

许多multi-agent系统采用了极端中心化或者极端去中心化的范式,而更多的算法使用了Centralized learning with decentralized execution这种混合范式。我把这种思路理解成“集体学习、因地制宜”。

这类算法的优点是在learning阶段使用许多附加信息(例如global state、action和reward),然后在execution阶段移除上述附加信息。

首先可以看看decentralized partially observable Markov decision processes (DEC-POMDPs),参考文献是 [290] A concise introduction to decentralized POMDPs. 2016

最近几年这些混合方式的代表有——

2017年的[63] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,这是大名鼎鼎的MADDPG,开源代码有 https://github.com/openai/maddpghttps://github.com/google/maddpg-replication

2017年的[167] Counterfactual Multi-Agent Policy Gradients,这是大名鼎鼎的COMA,开源代码有 https://github.com/oxwhirl/pymarl

2017年的[168] Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning,开源代码有 https://paperswithcode.com/paper/stabilising-experience-replay-for-deep-multi

2017年的[172] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning,开源代码有 belepi93/lasertag-v0

2018年的[35] Lenient Multi-Agent Deep Reinforcement Learning,开源代码有 https://paperswithcode.com/paper/lenient-multi-agent-deep-reinforcement

2018年的[181] QMIX - MonotonicValue Function Factorisation for Deep Multi-Agent Reinforcement Learning,这是大名鼎鼎的QMIX,开源代码有 starry-sky6688/StarCraft (QMIX + VDN + COMA + QTRAN + CommNet )

完全去中心化的代表是[166] Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability. 2017

这里要注意,在现实世界场景中(例如机器人),这种算法的实用性还没得到证明。[152]

3. 参数共享

参数共享(Parameter Sharing)也被广泛用在许多MDRL应用中。有两篇论文独立提出Parameter Sharing的思想——

Foerster发在NIPS2016上的RIAL和DIAL算法,论文题目是Learning to communicate with deep multi-agent reinforcement learning,开源代码有 minqi/learning-to-communicate-pytorch 和 dial.ipynb

Gupta发在AAMAS2017上,题目是Cooperative Multi-agent Control using deep reinforcement learning,开源代码有 https://github.com/sisl/MADRL

Parameter Sharing被应用在许多其他工作中——

2016年的[163] Learning Multiagent Communication with Backpropagation,开源代码有 KornbergFresnel/CommNet

2017年的[164] Multiagent Bidirectionally-Coordinated Netsfor Learning to Play StarCraft Combat Games,开源代码有 Coac/CommNet-BiCnet

2017年的[168] Stabilising ExperienceReplay for Deep Multi-Agent Reinforcement Learning, 开源代码有 Papers With Code : Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning

2018年的[180] Value-Decomposition Networks For Cooperative Multi-Agent Learning BasedOn Team Reward,这是大名鼎鼎的VDN,开源代码有 oxwhirl/pymarl (内含有QMIX + COMA + VDN + IQL + QTRAN)

2018年的[181] QMIX - MonotonicValue Function Factorisation for Deep Multi-Agent Reinforcement Learning,这是大名鼎鼎的QMIX(是针对VDN的改进版),开源代码有 starry-sky6688/StarCraft (内含有QMIX + VDN + COMA + QTRAN + CommNet )

这里需要注意的是,虽然agent之间会传递参数,但是考虑到agent在partially observable scenarios中会收到不同的观察信息,所以agent的最终动作必然存在差异。

4. 循环神经网络

RNN在DRL领域中比较著名的例子是DRQN [85] ,这篇论文希望可以用RNN内置的memory模块来学习partially observable environments的某些信息。

Then, Feudal Networks [229] proposed a hierarchical approach [230], multiple LSTM networks with different time-scales, i.e., the observation input schedule is different for each LSTM network, to create a temporal hierarchy so that it can better address the long-term credit assignment challenge for RL problems.

不仅仅是Single-agent环境,RNN也可以用在multi-agent环境中,特别是那些需要partially observability的任务。

2018年发表的[158] Emergent Complexity via Multi-Agent Competition,开源代码有 https://github.com/openai/multiagent-competition

[170] Modeling Others using Oneself in Multi-Agent Reinforcement Learning. 2018

[171] Deep Policy Inference Q-Network for Multi-Agent Systems. 2018

[174] Machine Theory of Mind. 2018

祖师爷的RIAL和DIAL也使用了RNN,BiCNet、VDN和QMIX也属于这一类。

特别指出:FTW [179] 和 DRPIRQN [171]

2018发表的[171] Deep Policy Inference Q-Network for Multi-Agent Systems,大名鼎鼎的FTW,

2019发表的[179] Human-level performance in 3D multiplayer games with population-based reinforcement learning,发表在Science上大名鼎鼎的DRPIRQN,

实验计算方面:

Melis et al. [327] compared a series of works with increasing innovations in network architectures and the vanilla LSTMs [86] (originally proposed in 1997).The results showed that, when properly tuned, LSTMs outperformed the more recent models

5.处理过拟合问题

不仅仅在监督学习中存在overfitting,在强化学习中同样也存在着overfitting。一直以来,强化学习的泛化能力就被诟病 [296], multi-agent RL中的问题更甚 [254]。

[296] Protecting against evaluation overfitting in empirical reinforcement learning 2011

[254] Accelerating best response calculation in large extensive games 2011

为了处理过拟合问题,有两种处理方法:

一、有些学者用了ensemble的方法。

[63] MADDPG

[169] Opponent modeling in deep reinforcement learning . 2016

hhexiy/opponent (Lua-Torch)

[172] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 2017

belepi93/lasertag-v0

二、有些人用鲁棒算法来做

[183] Robust multi-agent reinforcement learning via minimaxdeep deterministic policy gradient. AAAI2019

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359