今天先挖一个坑
Reinforcement Learning常常被归为机器学习方法的一种。实际上, 这种方法在控制理论领域也是大热, 其换了一个名字,叫自适应动态规划(Adaptive Dynamic Programming, ADP). 在机器学习领域, 人们更关心这种方法的实际应用效果; 而在控制领域, 更关心数学上严格的稳定性证明.
模型
针对模型的不同,衍生出不同的方法流派, 目前有三类方法, 参考Jiang Zhongping的论文
- 连续域方法
- 差分域方法
- 离散域方法
先说说连续域方法, 也就是控制领域常用的方式, 主流控制方法, 从PID到鲁棒控制到backstepping, 大致都是基于连续域设计的. 虽然这些方法都有相应的离散域版本, 但传统还是基于连续域的. 强化学习有深厚的机器学习背景, 因此本质上是数据驱动的控制方法(Data driven method). 因此和一般的模型驱动方法(Model Drivien Method)需要完整的名义模型不同, 也和像PID这种无模型(Model Free Method)方法不是一回事.
强化学习在机器人中的应用
谈谈高斯过程在机器人强化学习, 剑桥的Carl Edward Rasmussen 和Christopher K. I. Williams写了一本Gaussian Processes for Machine Learning . 书中阐述了如何将高斯模型和强化学习相结合, 并用于机器人控制.