强化学习-Gym

Gym是用于开发和比较强化学习算法的工具包。它支持教学人员，从步行到玩Pong或Pinball等游戏。

1. Gym入门

Gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设，并且与任何数字计算库（例如TensorFlow或Theano）兼容。

gym库是测试问题（环境）的集合，您可以用来制定强化学习算法。这些环境具有共享的接口，使您可以编写常规算法。

1.1 安装

方法一：您需要安装Python 3.5+。只需使用pip安装gym：

pip install gym

方法二：如果愿意，还可以直接克隆gym Git存储库。当您要修改Gym本身或添加环境时，此功能特别有用。使用以下方法下载并安装：

git clone https://github.com/openai/gym
cd gym
pip install -e .

您稍后可以运行pip install -e .[all]执行包含所有环境的完整安装。这需要安装更多涉及的依赖项，包括cmake和最新的pip版本。

1.2 Environments

这是运行某件事的最低限度示例。这将在1000个时间步中运行CartPole-v0环境的实例，并在每个步骤中渲染该环境。您应该会看到一个弹出窗口，呈现经典的cart-pole问题：

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    env.step(env.action_space.sample()) # take a random action
env.close()

它看起来应该像这样：

cartpole-no-reset

通常，我们会在允许球杆离开屏幕之前结束模拟。以后再说。现在，即使此环境已经返回done = True，也请忽略有关调用step()的警告。

如果您希望看到其他运行环境，请尝试将上面的CartPole-v0替换为MountainCar-v0，MsPacman-v0（需要 Atari dependency依赖项）或Hopper-v1（需要MuJoCo依赖项）。所有环境均来自Env基类。

请注意，如果您缺少任何依赖项，则应该收到一条有用的错误消息，告诉您所缺少的内容。（如果没有明确的修复说明，请让我们知道依赖是否给您带来麻烦。）安装缺少的依赖通常很简单。您还需要Hopper-v1的MuJoCo许可证。

1.3 Observations

如果我们想做的比在每个步骤中都采取随机行动要好，那么最好了解一下我们的行动对环境的影响。

环境的step函数完全返回我们需要的东西。实际上，step返回四个值。这些是：

observation（object）：特定于环境的对象，代表您对环境的观察。例如，来自摄像机的像素数据，机器人的关节角度和关节速度或棋盘游戏中的棋盘状态。
reward（float）：上一操作获得的奖励金额。规模因环境而异，但目标始终是增加总奖励。
done（boolean）：是否需要再次重置环境。大多数（但不是全部）任务被分为定义明确的情节，并且如果done为True，则表示情节已终止。（例如，也许杆子倾斜得太远，或者你失去了你的最后一条生命。）
info（dict）：诊断信息，可用于调试。它有时对学习很有用（例如，它可能包含环境上次状态更改背后的原始概率）。但是，您的代理人的官方评估不允许将其用于学习。

这只是经典“agent-environment loop（代理-环境循环）”的实现。
每个时间步，代理选择一个action（动作），环境返回一个observation（观察）和reward（奖励）。

该过程通过调用reset()开始，它返回初始观察结果。
因此，编写前面的代码的一种更合适的方法是遵循done标志：

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
env.close()

这应该提供视频和类似以下的输出。您应该能够看到重置发生的位置。

cartpole-yes-reset

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

1.4 Spaces

在上面的例子中，我们从环境的动作空间中取样随机的动作。但这些行动到底是什么呢？每个环境都有一个action_space和一个observation_space。这些属性的类型为Space，它们描述了有效操作和观察的格式：

import gym
env = gym.make('CartPole-v0')
print(env.action_space)
#> Discrete(2)
print(env.observation_space)
#> Box(4,)

离散空间允许固定范围的非负数，因此在这种情况下有效操作为0或1。Box空间表示n维框，因此有效观测值将是4个数字的数组。我们还可以检查框的边界：

print(env.observation_space.high)
#> array([ 2.4       ,         inf,  0.20943951,         inf])
print(env.observation_space.low)
#> array([-2.4       ,        -inf, -0.20943951,        -inf])

这种自省有助于编写适用于许多不同环境的通用代码。Box和Discrete是最常见的空间。您可以从某个空间中取样或检查某物是否属于该空间：

from gym import spaces
space = spaces.Discrete(8) # Set with 8 elements {0, 1, 2, ..., 7}
x = space.sample()
assert space.contains(x)
assert space.n == 8

对于CartPole-v0，其中一个动作向左施加力，而其中一个动作向右施加力。（您能找出哪个吗？）

幸运的是，您的学习算法越好，您自己尝试解释这些数字的次数就越少。

2. 可用环境

Gym拥有各种环境，从容易到困难，涉及许多不同种类的数据。查看完整的环境列表。

Classic control和toy text：完成小规模任务，大部分来自RL文献。
他们是来帮你开始的。
Algorithmic：执行计算，如添加多位数和反转序列。
有人可能会反对这些任务对于计算机来说很容易。挑战在于纯粹从示例中学习这些算法。这些任务具有很好的性质，通过改变序列长度很容易改变难度。
Atari：玩经典的Atari游戏。我们已经将Arade学习环境(它对强化学习研究产生了很大的影响)集成在一个易于安装的表单中。
2D和3D机器人：在模拟中控制机器人。这些任务使用MuJoCo物理引擎，该引擎专为快速和准确的机器人仿真而设计。其中包括加州大学伯克利分校研究人员(顺便说一句，今年夏天将加入我们)最近的基准测试中的一些环境。MuJoCo是专有软件，但提供免费试用许可证。

2.1 注册表

gym的主要目的是提供大量环境，这些环境暴露出一个通用的界面，并进行版本控制以进行比较。要列出安装中可用的环境，只需询问gym.envs.registry：

from gym import envs
print(envs.registry.all())
#> [EnvSpec(DoubleDunk-v0), EnvSpec(InvertedDoublePendulum-v0), EnvSpec(BeamRider-v0), EnvSpec(Phoenix-ram-v0), EnvSpec(Asterix-v0), EnvSpec(TimePilot-v0), EnvSpec(Alien-v0), EnvSpec(Robotank-ram-v0), EnvSpec(CartPole-v0), EnvSpec(Berzerk-v0), EnvSpec(Berzerk-ram-v0), EnvSpec(Gopher-ram-v0), ...

这将为您提供EnvSpec对象的列表。这些定义了特定任务的参数，包括要运行的试验次数和最大步骤数。例如，EnvSpec（Hopper-v1）定义了一个环境，目标是让2D模拟机器人跳跃；EnvSpec（Go9x9-v0）在9x9板上定义Go游戏。

这些环境ID被视为不透明字符串。为了确保将来进行有效的比较，绝不会以影响性能的方式更改环境，而只能用较新的版本来替换。目前，我们为每个环境添加v0后缀，以便将来可以自然地将其替换为v1，v2等。

将您自己的环境添加到注册表中非常容易，从而使它们可用于gym.make()：只需在加载时register()即可。

3. 背景：为什么要Gym？（2016年）

强化学习（RL）是机器学习的子领域，涉及决策和运动控制。它研究代理如何在复杂，不确定的环境中学习如何实现目标。令人兴奋的原因有两个：

RL非常一般化，涵盖了涉及一系列决策的所有问题：例如，控制机器人的电动机使其能够运行和跳跃，制定价格，库存管理等商业决策，或者玩视频游戏和棋盘游戏。 RL甚至可以应用于具有顺序或结构化输出的监督学习问题。
RL算法已开始在许多困难的环境中取得良好的效果。 RL历史悠久，但在深度学习方面取得新进展之前，它需要大量针对特定问题的工程。 DeepMind的Atari结果，Pieter Abbeel小组的BRETT和AlphaGo都使用了深度RL算法，该算法并未对其环境做太多假设，因此可以应用于其他环境。

但是，RL研究也因两个因素而减慢了速度：

需要更好的基准。在监督学习中，像ImageNet这样的大型标签数据集推动了进步。在RL中，最接近的等效项是各种各样的环境。但是，现有的RL环境的开放源代码集合种类繁多，并且通常甚至很难设置和使用。
问题定义上的细微差异（例如奖励功能或一组动作）会大大改变任务的难度。这个问题使得很难复制已发表的研究成果并比较不同论文的结果。

Gym是试图解决这两个问题的尝试。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,539评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,594评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,871评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,963评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,984评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,763评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,468评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,850评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,002评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,144评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,823评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,483评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,026评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,150评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,415评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,092评论 2赞 355