要玩转这个星际争霸II开源AI,你只需要i5+GTX1050

DeepMind、OpenAI 和暴雪对于星际争霸 2 人工智能的研究仍在进行中,面对复杂的即时战略游戏,人们目前还鲜有进展。尽管近期 腾讯 、南大、 伯克利 等均在星际 II 上攻克了全场游戏,但其训练规模并不是个体研究者所能 handle 的。最近,来自 University of Tartu 的 Roman Ring 开源了首个星际争霸 2 的智能体项目,我们也可以在这个前沿领域里展开自己的研究了。

Reaver 是一个模块化的深度强化学习框架,可提供比大多数开源解决方案更快的单机并行化能力,支持星际争霸 2、OpenAI Gym、Atari、MuJoCo 等常见环境,其网络被定义为简单的 Keras 模型,易于配置和共享设置。在示例中,Reaver 在不到 10 秒钟内通过了 CartPole-v0 游戏,在 4 核 CPU 笔记本上每秒采样率为 5000 左右。

Reaver 可以在 30 分钟内攻克星际争霸 2 的 MoveToBeacon 小游戏,和 DeepMind 得到的结果相当,仅使用了配置 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本,你也可以在 Google Colab 上在线跑跑对比一下。

项目链接: https://github.com/inoryy/reaver-pysc2

Reaver 的 Google Colab 地址: https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

具体来说,Reaver 具备以下特征:

性能:现有研究的多数强化学习基线通常针对进程之间基于消息的通信(如 MPI)进行调整。这对于 DeepMind、OpenAI 等拥有大规模分布式 RL 设置的公司来说是有意义的,但对于只拥有一个计算机/HPC 节点的研究人员或发烧友来说,这似乎是一个很大的瓶颈。因此,Reaver 采用了共享内存,与之前基于消息的并行化的项目相比,速度提升了 2 倍。具体来说,Reaver 通过 lock-free 的方式利用共享内存,可以专门针对这种情况优化。这种方法可以在星际争霸 II 采样率上速度提升了 2 倍(在一般情况下可以实现 100 倍的加速),其最主要的瓶颈在于 GPU 的输入/输出管道。

模块化:许多 RL 基线或多或少都是模块化的,但经常紧紧地与作者使用的模型/环境耦合。以我个人经验来看,当我只专注于星际争霸 2 游戏时,每一次实验或调试都是一个令人沮丧的长期过程。而有了 Reaver 之后,我就能够在一行代码中交换环境(即使是从 SC2 到雅达利或 CartPole)。对于模型来说也是如此——任何 Keras 模型都可以,只要它遵守基本 API 契约(inputs = agent obs, outputs = logits + value)。Reaver 的三个核心模块 envs、models、 和 agents 基本上是完全独立的。这保证了在一个模块上的功能扩展可以无缝地连接到其它模块上。

可配置性:现有的智能体通常具有几十个不同的配置参数,共享这些参数似乎让每一个参与其中的人都很头疼。我最近偶然发现了这个问题的一个有趣的解决方案——gin-config,它支持将任意 Python 可调用函数配置为类似 Python 的配置文件和命令行参数。试验后发现 gin-config 可以实现仅用一个文件共享全部训练流程环境配置。所有的配置都能轻松地以.gin 文件的形式进行分享,包括所有超参数、环境变量和模块定义。

不过时:DL 中充满变数,即使只有一年历史的代码库也会过时。我使用即将面世的 TensorFlow 2.0 API 写 Reaver(大多使用 tf.keras,避开 tf.contrib),希望 Reaver 不会遭此厄运。

Reaver 的用途并不局限于星际争霸 II 智能体的深度强化学习训练,如果有任何扩展的想法欢迎分享给我。我计划近期添加 VizDoom 环境到这个项目中去。

python-mreaver.run --env MoveToBeacon --agent a2c --envs42> stderr.log

只需通过一行代码,Reaver 就可以直接配置一个训练任务,如上所示。Reaver 的奖励函数可以很快收敛到大约 25-26RMe(mean episode rewards),这和 DeepMind 在该环境(MoveToBeacon)中得到的结果相当。具体的训练时间取决于你自己的硬件。以下日志数据是通过配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本训练了 30 分钟得到的。

| T    118 |Fr51200| Ep    212 |Up100| RMe    0.14 |RSd0.49| RMa    3.00 |RMi0.00| Pl    0.017 |Vl0.008| El 0.0225 |Gr3.493| Fps  433 || T    238 |Fr102400| Ep    424 |Up200| RMe    0.92 |RSd0.97| RMa    4.00 |RMi0.00| Pl  -0.196 |Vl0.012| El 0.0249 |Gr1.791| Fps  430 || T    359 |Fr153600| Ep    640 |Up300| RMe    1.80 |RSd1.30| RMa    6.00 |RMi0.00| Pl  -0.035 |Vl0.041| El 0.0253 |Gr1.832| Fps  427 |...| T  1578 |Fr665600| Ep  2772 |Up1300| RMe  24.26 |RSd3.19| RMa  29.00 |RMi0.00| Pl    0.050 |Vl1.242| El 0.0174 |Gr4.814| Fps  421 || T  1695 |Fr716800| Ep  2984 |Up1400| RMe  24.31 |RSd2.55| RMa  30.00 |RMi16.00| Pl    0.005 |Vl0.202| El 0.0178 |Gr56.385| Fps  422 || T  1812 |Fr768000| Ep  3200 |Up1500| RMe  24.97 |RSd1.89| RMa  31.00 |RMi21.00| Pl  -0.075 |Vl1.385| El 0.0176 |Gr17.619| Fps  423 |

在 MoveToBeacon 环境上的 RMe 学习曲线。

基准评测分数

其中:

Human Expert 是由 DeepMind 从战网天梯的大师级玩家中收集的数据

DeepMind ReDRL 是当前业内最佳结果,出自 DeepMind 2018 年 6 月的论文《 Relational Deep Reinforcement Learning 》

DeepMind SC2LE 成绩出自 DeepMind 和暴雪 2017 年 8 月的论文《StarCraft II: A New Challenge for Reinforcement Learning》

Reaver(A2C)是通过训练 reaver.agents.A2C 智能体获得的结果,其在硬件上尽可能复制 SC2LE 的架构。通过训练智能体 --test 模组 100 个迭代,计算总奖励值,收集结果。表中列出的是平均值、标准差(在括号中),以及最小&最大值(在方括号中)。

训练细节,注意这些训练时间都是在配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本上得到的。我并没有花费太多时间来调超参数,而是先展示其可学习性,但至少在 MoveToBeacon 环境中,我已经显著地降低了训练样本数。

不同环境下的 RMe 学习曲线和标准差。

进群:697699179可以获取Java各类入门学习资料!

这是我的微信公众号【编程study】各位大佬有空可以关注下,每天更新Java学习方法,感谢!

学习中遇到问题有不明白的地方,推荐加小编Java学习群:697699179内有视频教程 ,直播课程 ,等学习资料,期待你的加入

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容