第二部分免模型预测、免模型控制、深度学习基础

1.概念解释：有模型算法、免模型算法、预测、控制。举例说明？

答：

有模型算法：环境状态已知；状态转移概率已知；尝试学习一个新的环境模型；

免模型算法：环境是未知的，经典的强化学习算法；在与环境的交互中学习；

预测：估计环境中的期望值；如状态价值函数，动作价值函数；如预测Q值

控制：找到最优的策略，获得最大的回报值；如根据Q值选择动作；

2.以2×2网格的示例，解释利用蒙特卡洛方法预测价值函数？

答：

可直接计算s1，s2，s3，s4的状态价值。方法如下：

以计算s1的价值为例：

首先计算s1到s2的轨迹的回报值，计算s1到s3的轨迹回报值，计算s1到s4的轨迹回报值，将以上轨迹的回报值进行平均即可求得。

3.理解首次访问蒙特卡洛算法的伪代码？

答：

蒙特卡洛算法的思路为：采样大量的轨迹，计算回报，并取平均值，也称为经验平均回报。

首次访问 FVMC 和每次访问 MVFC 的区别：是否多次计算状态值

注意：实际计算中，采用直接递进赋值的方式，直接更新估计值。计算公式如下：

$V(s)\leftarrow V(s_t) + \alpha[G(t) - V_(s_t)]$

关键词：轨迹；经验估计；平均；

4.单步时序差分估计的理解？时序差分估计的思路？

答：

时序差分估计的计算公式：

$V(s_t) = V(s_t) + \alpha [r_{t+1} + \gamma V(s_{t+1})-V(s_t)]$

公式理解：将下一状态的值函数作为现有状态值函数的一部分来更新现有状态的值函数

优点：仅分解成为只涉及一步的预测。

终止状态时，公式需要进行变化，如下所示：

$V(s_t) = V(s_t) + \alpha [r_{t+1} -V(s_t)]$

5.时序差分和蒙特卡洛估计的区别？

答：

时序差分方法：每进行一步就更新，效率高；

蒙特卡洛估计：完全结束时，才能进行学习；

6.理解n步时序差分？

答：

根据n取值的不同，则状态估计的函数就需要与未来n个状态相关。则当n取的足够大时，时序差分方法也就变成了蒙特卡洛方法。因此需要根据需求，选择不同的n值。

7.Q-learning算法的数学原理？举例说明？

答：

Q-learning算法的思路：直接预测动作价值函数-------决策使用Q值最大的策略--------则策略和动作价值函数同时得到最优。

动作价值函数、策54..略函数和状态价值函数的关系如下：

$V_\pi(s) = \sum_{a\in A}\pi(a|s)Q_{\pi}(s,a)$

Q-learning算法的更新公式：

$Q（s_t, a_t)\leftarrow Q(s_t,a_t) + \alpha[r_t + \gamma Q_{max_a}(s_{t+1},a)-Q(s_t,a_t)]$

注意：通过最大动作来进行价值估计，而不是平均值的方法来估计，会存在不准确的情况。

8.理解Q表格的方法？以及Q-learning探索策略？

答：

Q表格：将所有的状态进行列举，并给出每一个动作的Q值。可随机初始化；但最终状态必须为0。没走一步，进行一个状态的更新。

Q-learning探索策略： $\varepsilon -greedy$ 的策略，即使用 $1-\varepsilon$ 的概率按照Q来执行动作，即利用；以 $\varepsilon$ 的概率做随机探索。也称为探索利用窘境。

9.理解Q-learning算法的伪代码？举例说明？

答：

10.Sarsa算法的伪代码理解？举例说明？

答：

Sarsa通过两个因素决定的最大值来更新，即下一个状态、动作，记作 $Q（s_{t+1},a_{t+1}）$

而Q-learning算法只根据下一个状态的最大值来更新 $Q（s_{t+1}）$

Sarsa状态更新公式：

$Q（s_t, a_t)\leftarrow Q(s_t,a_t) + \alpha[r_t + \gamma Q_{max_a}(s_{t+1},a_{t+1})-Q(s_t,a_t)]$

11.同策略算法和异策略算法的区别？on-policy与off-policy的区别？

答：

同策略算法：策略评估和策略改进过程是基于相同的策略完成的。

异策略算法：从其他策略中获取样本然后利用它们来更新目标策略。

12.“对于实战来说最重要的一点就是写好伪代码”？

答：

如果说理论部分是数学语言，实战部分就是编程语言，而伪代码则是从数学语言到编程语言之间的一个过渡。

14.什么是消融实验？举例说明？

答：

用来评估模型的某一部分对整体性能的影响。

本例中是为了探索策略的概率 $\varepsilon$ 的影响。两种方式，一种岁迭代次数衰减，一种为保持恒定。在本例中，随次数衰减的实验曲线更加稳定。

16.强化学习与深度学习的关系？

答：

深度学习与强化学习的结合被称为深度强化学习（Deep Reinforcement Learning, DRL），其主要思想是利用深度神经网络来处理强化学习中的状态表示和策略优化问题。强化学习和深度学习的结合，通过利用深度神经网络的强大表征能力，极大地提升了强化学习在复杂环境中的表现。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,287评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,346评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,277评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,132评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,147评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,106评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,019评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,862评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,301评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,521评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,682评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,405评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,996评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,651评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,803评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,674评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,563评论 2赞 352

第二部分 免模型预测、免模型控制、深度学习基础