第一部分：绪论、马尔可夫、动态规划

教程书籍链接：强化学习教程joyRL

1.什么是试错学习？举例说明？

答：

试错学习（trial and error learning）是通过反复尝试和修正错误来解决问题和学习新技能的方法。

关键词：尝试；修正错误；强化学习的鲜明要素

举例：儿童走路等

2.什么是马尔可夫决策过程？什么是有限的马尔可夫决策？举例说明？

答：

马尔可夫决策过程：（markov decision process，MDP）：智能体（agent）接收到状态（state），采用动作（action），达到新的状态（state），环境给出奖励（reward）。

有限的马尔可夫决策（finite MDP）：状态空间和动作空间是有限的。

举例：4*4网格的导航

关键词：状态空间S；动作空间A；状态转移概率P；奖励函数R；

3.什么是马尔可夫性质？数学解释？

答：

马尔可夫性质：无记忆性。即知道s（t）即可计算s（t+1）。

关键词：无记忆性；马尔可夫性质；

4.介绍AlphaGO算法？简单理解？

答：

AlphaGo是由谷歌旗下的DeepMind公司开发的一种人工智能程序，它使用了深度学习和强化学习的结合来下围棋。AlphaGo的成功标志着人工智能在解决复杂问题上的一个重大突破。

5.引用折扣因子后的回报公式？折扣因子的大小关系？

答：

原始回报公式如下：。Gt代表是当前状态的累计回报；即t+1，t+2，t+3状态的回报相加

$G_t = r_{t+1} + r_{t+2} + ...+r_T$

为了处理持续性任务，加入折扣因子之后的表达式为：

$G_t = r_{t+1} + \gamma r_{t+2}+ \gamma^2 r_{t+3} + ...=\sum_{k=0}^{T=\propto }\gamma^k r_{t+k+1} =r_{t+1} + \gamma G_{t+1}$

$\gamma$ = 0表示只考虑当前奖励； $\gamma$ = 1 表示对所有的未来奖励都关注。

优势在于当前状态的累计回报与下一时刻的累计回报是有关联的。

关键词：折扣因子；累计回报

6.从马尔可夫链推导到状态转移矩阵？马尔可夫决策过程的常用写法及各参数含义？

答：

马尔可夫链。三个状态，其中还包含各状态转移的概率。

状态转移概率的计算，以从s1到s2为例，表示处于s1状态下，转移到s2的概率。计算如下：

$P_{12} = P(S_{t+1} = s_2 | S_t = s_1)=0.4$

由此可以得到状态转移矩阵。

马尔可夫决策过程的常用写法： $<S, A, R, P, \gamma>$

S为状态空间，A为动作空间，R为奖励空间，P为状态转移概率； $\gamma$ 为折扣因子。

7.强化学习所解决的问题一定要严格满足马尔可夫性质吗？请举例说明。

答：

不一定。马尔可夫性质表示下一步的状态只与当前状态有关，与之前的状态无关，即无记忆性。

举例：棋盘的下棋，之前的棋子也会影响局势。

8.实现动态规划问题求解总路径和问题？并总结一般思路？

答：

动态规划的一般思路：确定状态；找到状态转移方程；寻找边界条件

路径规划问题求解：

设 $f（i，j）$ 为当前位置状态的总路径和，则分析可以得到状态转移方程为

$f(i,j) = f(i-1,j)+f(i,j-1)$

同时设置边界条件为 $i=0,f(i,j) = 1$ ; $j = 0, f(i, j)=1$ ; $i=0,j=0,f(i,j) = 0$ 可得到最终的状态转移方程，则问题得以求解。

关键词：最优化原理（具有最优子结构）；无后效性；重叠子问题；

9.数学公式状态价值函数的理解？动作价值函数的理解？推导两者的关系？

答：

状态价值函数：表示在状态s的情况下，执行策略 $\pi$ 所能得到的回报奖励期望值

$V_\pi(s) = \mathbb{E}_\pi [R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s] = \mathbb{E}_\pi [G_t \mid S_t = s]$

参数解释：

$\mathbb{E}$ 为期望计算符；s为状态； $\gamma$ 表示折扣因子；

动作价值函数：表示在状态s，动作a的情况下，执行策略 $\pi$ 所能得到的回报奖励期望值

$Q_\pi(s,a) = \mathbb{E}_\pi[G_t|s_t = s, a_t =a]$

两者之间的关系，通过全期望公式来推导。即对于每一个动作a的回报期望值，乘以a在s中的概率分布

$V_\pi(s) = \sum_{a\in A}\pi(a|s)Q_\pi(s,a)$

10.贝尔曼方程的推导和理解？

答：

推导略。

理解：当前的状态价值函数等于当前的实时状态值加上未来状态值的折扣期望。

11.策略迭代的数学理解？简单举例说明？

答：

策略迭代分为两个步骤，策略估计和策略改进。

策略估计：首先固定策略𝜋不变，然后估计对应的状态价值函数𝑉

策略改进：根据估计好的状态价值函数𝑉结合策略推算出动作价值函数𝑄，并对 𝑄 函数优化然后进一步改进策略𝜋

12. 价值迭代的数学理解？简单举例说明？

答：

价值迭代：首先将所有的状态价值初始化，然后不停地对每个状态迭代，直到收敛到最优价值𝑉∗，并且根据最优价值推算出最优策略𝜋∗。