强化学习初探分类

分类
model-Free RL：不用理解环境
从环境中得到反馈进行学习
Policy Gradients
Sarsa
Q Learning
Model-Based RL：理解环境
需要为现实世界进行建模之后学习
Policy Gradients
Sarsa
Q Learning

基于概率（Policy-Based RL）
Policy Gradients
基于价值（value Based RL）
Sarsa
Q Learning
Actor-Critic
基于概率做出动作，给动作给分。

回合更新（Monte-Carlo update）
基础版本Policy Gradients
Monte-Carlo Learning
单步更新（Tenporal-Difference Update）
Sarsa
Q Learning
升级版本Policy Gradients

在线学习（On-Policy）
Sarsa
Sarsa（λ）
离线学习（Off-Policy）
Q Learning
Deep Q Learning

Q Learning

构建Q表

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文