1.概念解释:有模型算法、免模型算法、预测、控制。举例说明?
答:
有模型算法:环境状态已知;状态转移概率已知;尝试学习一个新的环境模型;
免模型算法:环境是未知的,经典的强化学习算法;在与环境的交互中学习;
预测:估计环境中的期望值;如状态价值函数,动作价值函数;如预测Q值
控制:找到最优的策略,获得最大的回报值;如根据Q值选择动作;
2.以2×2网格的示例,解释利用蒙特卡洛方法预测价值函数?
答:
可直接计算s1,s2,s3,s4的状态价值。方法如下:
以计算s1的价值为例:
首先计算s1到s2的轨迹的回报值,计算s1到s3的轨迹回报值,计算s1到s4的轨迹回报值,将以上轨迹的回报值进行平均即可求得。
3.理解首次访问蒙特卡洛算法的伪代码?
答:
蒙特卡洛算法的思路为:采样大量的轨迹,计算回报,并取平均值,也称为经验平均回报。
首次访问 FVMC 和每次访问 MVFC 的区别:是否多次计算状态值
注意:实际计算中,采用直接递进赋值的方式,直接更新估计值。计算公式如下:
关键词:轨迹;经验估计;平均;
4.单步时序差分估计的理解?时序差分估计的思路?
答:
时序差分估计的计算公式:
公式理解:将下一状态的值函数作为现有状态值函数的一部分来更新现有状态的值函数
优点:仅分解成为只涉及一步的预测。
终止状态时,公式需要进行变化,如下所示:
5.时序差分和蒙特卡洛估计的区别?
答:
时序差分方法:每进行一步就更新,效率高;
蒙特卡洛估计:完全结束时,才能进行学习;
6.理解n步时序差分?
答:
根据n取值的不同,则状态估计的函数就需要与未来n个状态相关。则当n取的足够大时,时序差分方法也就变成了蒙特卡洛方法。因此需要根据需求,选择不同的n值。
7.Q-learning算法的数学原理?举例说明?
答:
Q-learning算法的思路:直接预测动作价值函数-------决策使用Q值最大的策略--------则策略和动作价值函数同时得到最优。
动作价值函数、策54..略函数和状态价值函数的关系如下:
Q-learning算法的更新公式:
注意:通过最大动作来进行价值估计,而不是平均值的方法来估计,会存在不准确的情况。
8.理解Q表格的方法?以及Q-learning探索策略?
答:
Q表格:将所有的状态进行列举,并给出每一个动作的Q值。可随机初始化;但最终状态必须为0。没走一步,进行一个状态的更新。
Q-learning探索策略:的策略,即使用的概率按照Q来执行动作,即利用;以的概率做随机探索。也称为探索利用窘境。
9.理解Q-learning算法的伪代码?举例说明?
答:
10.Sarsa算法的伪代码理解?举例说明?
答:
Sarsa通过两个因素决定的最大值来更新,即下一个状态、动作,记作
而Q-learning算法只根据下一个状态的最大值来更新
Sarsa状态更新公式:
11.同策略算法和异策略算法的区别?on-policy与off-policy的区别?
答:
同策略算法:策略评估和策略改进过程是基于相同的策略完成的。
异策略算法:从其他策略中获取样本然后利用它们来更新目标策略。
12.“对于实战来说最重要的一点就是写好伪代码”?
答:
如果说理论部分是数学语言,实战部分就是编程语言,而伪代码则是从数学语言到编程语言之间的一个过渡。
14.什么是消融实验?举例说明?
答:
用来评估模型的某一部分对整体性能的影响。
本例中是为了探索策略的概率的影响。两种方式,一种岁迭代次数衰减,一种为保持恒定。在本例中,随次数衰减的实验曲线更加稳定。
16.强化学习与深度学习的关系?
答:
深度学习与强化学习的结合被称为深度强化学习(Deep Reinforcement Learning, DRL),其主要思想是利用深度神经网络来处理强化学习中的状态表示和策略优化问题。强化学习和深度学习的结合,通过利用深度神经网络的强大表征能力,极大地提升了强化学习在复杂环境中的表现。