资料来源:强化学习 Reinforcement Learning (莫烦 Python 教程 )
1. 强化学习算法分类
Value based(优势:用于连续动作的概率分布): Q Leraning, Sarsa, Deep Q Network
Policy based(优势:便于得到最佳值,只要分数最高即可): Policy Gradients
Policy-Value(混合用法:基于概率做出行为,根据分数得到分数): Actor-Critic
Policy & Value
Model-Free RL:不理解环境,没有过往经验,一步步判断
Model-Based RL:理解环境,能根据以往的经验进行学习,具有想象力,选择最佳行为
Model-Free RL & Model-Based RL
Monte-Carlo update(回合更新):基础班Policy Gradients, Monte-Carlo Learning
Temporal-Difference update(单步更新):Q Learning, Sarsa, 升级版Policy Gradients
On-Policy(在线学习,只能学习自己的行为):Sarsa, Sarsa(λ)
Off-Policy(离线学习,可以学习自己或他人的行为):Q Learning, Deep Q Network
2. Q Learning
Q Learning算法
2.1 参数解释
Q(s,a):根据Q表,在s环境下执行a行为所得到的分数
ε-greedy:用于决策的策略,比如ε=0.9,表示90%的情况根据Q表的最优值来选择行为,10%的情况为随机
γ:Q表最优值得衰减率
α:学习率
s:surrounding环境
a:action行为
r:reward奖励
Q表
2.2 γ衰减值的意义
γ = (0~1) :值越大,远处的价值越清晰,使Q Learning算法更具远见,不仅仅只看眼前的价值