240 发简信
IP属地:北京
  • Resize,w 360,h 240
    关于RL不能实现系统镇定的一些思考

    很多人学强化学习都是从Cartpole这个例子开始的,(如下图)单极倒立摆的目标是维持摆的临界稳定状态。使用强化学习的算法无法让系统的状态渐...