登录注册写文章

强化学习(Reinforcement Learning)笔记

强化学习(Reinforcement Learning)笔记

资料来源：强化学习 Reinforcement Learning (莫烦 Python 教程 )

1. 强化学习算法分类

Value based（优势：用于连续动作的概率分布）: Q Leraning, Sarsa, Deep Q Network
Policy based（优势：便于得到最佳值，只要分数最高即可）: Policy Gradients
Policy-Value（混合用法：基于概率做出行为，根据分数得到分数）: Actor-Critic

Policy & Value

Model-Free RL：不理解环境，没有过往经验,一步步判断
Model-Based RL：理解环境,能根据以往的经验进行学习，具有想象力,选择最佳行为

Model-Free RL & Model-Based RL

Monte-Carlo update（回合更新）：基础班Policy Gradients, Monte-Carlo Learning
Temporal-Difference update（单步更新）：Q Learning, Sarsa, 升级版Policy Gradients

On-Policy（在线学习，只能学习自己的行为）：Sarsa, Sarsa(λ)
Off-Policy（离线学习，可以学习自己或他人的行为）：Q Learning, Deep Q Network

2. Q Learning

Q Learning算法

2.1 参数解释

Q(s,a)：根据Q表，在s环境下执行a行为所得到的分数
ε-greedy：用于决策的策略，比如ε=0.9，表示90%的情况根据Q表的最优值来选择行为，10%的情况为随机
γ：Q表最优值得衰减率
α：学习率
s：surrounding环境
a：action行为
r：reward奖励

Q表

2.2 γ衰减值的意义

γ = (0~1) :值越大，远处的价值越清晰，使Q Learning算法更具远见，不仅仅只看眼前的价值

最后编辑于：2023.07.19 20:32:05

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

深度强化学习 Deep Reinforcement Learning
https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
斑驳岁月再难觅阅读 2,305评论 0赞 2
一文了解强化学习
虽然是周末，也保持充电，今天来看看强化学习，不过不是要用它来玩游戏，而是觉得它在制造业，库存，电商，广告，推荐，金...
不会停的蜗牛阅读 9,633评论 0赞 29
0、什么是强化学习？
一、什么是强化学习在我们生活中强化学习最出名的无疑就是：阿尔法 go、阿尔法 zero了。他们采用了强化学习的算...
小黄不头秃阅读 520评论 0赞 2
强化学习基础篇（二）马尔科夫决策过程（MDP）
强化学习基础篇（二）马尔科夫决策过程（MDP）上一篇中主要介绍了强化学习的一些主要组成要素（智能体，环境，奖励，...
Jabes阅读 13,649评论 0赞 6
莫烦强化学习学习笔记1-基础
强化学习方法汇总 (Reinforcement Learning)： (1)Model-free 和 Model-...
Tutan_dcb0阅读 1,710评论 0赞 1

赞1赞

赞赏

手机看全文