Avatar notebook default
13篇文章 · 11960字 · 3人关注
  • 浅谈强化学习中的reward, value,value function

    Reward 定义了强化学习问题中的目标。在每个时间步,环境向agent发送一个称为reward的单个数字。Agent的唯一目标是最大化其长期收...

  • Reinforcement Learning with Python

    https://towardsdatascience.com/reinforcement-learning-with-python-8ef024...

  • gym 介绍

    1. 组成 OpenAI Gym由两部分组成: gym开源库:测试问题的集合。当你测试强化学习的时候,测试问题就是环境,比如机器人玩游戏,环境的...

  • 前向欧拉方程

    欧拉方法是一种一阶数值方法,用以对给定初值的常微分方程(即初值问题)求解。它是一种解决数值常微分方程的最基本的一类显型方法。 我们用上面的方程来...

  • Resize,w 360,h 240
    gym 环境解析:Pendulum-v0

    1. 概述 倒立摆问题是控制文献中的经典问题。 在这个版本的问题中,钟摆以随机位置开始,目标是将其向上摆动,使其保持直立。类型:连续控制 2. ...

  • Resize,w 360,h 240
    gym 环境解析:MountainCarContinuous-v0

    1. 概述 细节:动力不足的汽车必须爬上一维小山才能到达目标。 与MountainCar-v0不同,动作(应用的引擎力)允许是连续值。 目标位于...

  • Resize,w 360,h 240
    近端策略优化(PPO)

    1. 背景 我们如何使用我们目前拥有的数据对策略进行可能的改进步骤,而不会踩到意外导致性能崩溃?TRPO尝试使用复杂的二阶方法解决这个问题,PP...

  • Resize,w 360,h 240
    各种RL算法

    1. RL算法的分类 在现代RL空间中绘制精确的,无所不包的算法分类法真的很难,因为算法的模块性没有用树结构很好地表示。此外,为了使某些东西适合...

  • 强化学习中的关键概念

    原文链接:rl_intro[https://spinningup.openai.com/en/latest/spinningup/rl_intr...

文集作者