强化学习与自动控制

今天先挖一个坑


Reinforcement Learning常常被归为机器学习方法的一种。实际上, 这种方法在控制理论领域也是大热, 其换了一个名字,叫自适应动态规划(Adaptive Dynamic Programming, ADP). 在机器学习领域, 人们更关心这种方法的实际应用效果; 而在控制领域, 更关心数学上严格的稳定性证明.

模型

针对模型的不同,衍生出不同的方法流派, 目前有三类方法, 参考Jiang Zhongping的论文

  • 连续域方法
  • 差分域方法
  • 离散域方法

先说说连续域方法, 也就是控制领域常用的方式, 主流控制方法, 从PID到鲁棒控制到backstepping, 大致都是基于连续域设计的. 虽然这些方法都有相应的离散域版本, 但传统还是基于连续域的. 强化学习有深厚的机器学习背景, 因此本质上是数据驱动的控制方法(Data driven method). 因此和一般的模型驱动方法(Model Drivien Method)需要完整的名义模型不同, 也和像PID这种无模型(Model Free Method)方法不是一回事.

强化学习在机器人中的应用

谈谈高斯过程在机器人强化学习, 剑桥的Carl Edward RasmussenChristopher K. I. Williams写了一本Gaussian Processes for Machine Learning . 书中阐述了如何将高斯模型和强化学习相结合, 并用于机器人控制.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容