强化学习初探分类

分类
model-Free RL:不用理解环境
从环境中得到反馈进行学习
Policy Gradients
Sarsa
Q Learning
Model-Based RL:理解环境
需要为现实世界进行建模之后学习
Policy Gradients
Sarsa
Q Learning


基于概率(Policy-Based RL)
Policy Gradients
基于价值(value Based RL)
Sarsa
Q Learning
Actor-Critic
基于概率做出动作,给动作给分。


回合更新(Monte-Carlo update)
基础版本Policy Gradients
Monte-Carlo Learning
单步更新(Tenporal-Difference Update)
Sarsa
Q Learning
升级版本Policy Gradients


在线学习(On-Policy)
Sarsa
Sarsa(λ)
离线学习(Off-Policy)
Q Learning
Deep Q Learning

Q Learning

构建Q表

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容