分类
model-Free RL:不用理解环境
从环境中得到反馈进行学习
Policy Gradients
Sarsa
Q Learning
Model-Based RL:理解环境
需要为现实世界进行建模之后学习
Policy Gradients
Sarsa
Q Learning
基于概率(Policy-Based RL)
Policy Gradients
基于价值(value Based RL)
Sarsa
Q Learning
Actor-Critic
基于概率做出动作,给动作给分。
回合更新(Monte-Carlo update)
基础版本Policy Gradients
Monte-Carlo Learning
单步更新(Tenporal-Difference Update)
Sarsa
Q Learning
升级版本Policy Gradients
在线学习(On-Policy)
Sarsa
Sarsa(λ)
离线学习(Off-Policy)
Q Learning
Deep Q Learning
Q Learning
构建Q表