第一部分:绪论、马尔可夫、动态规划

教程书籍链接:强化学习教程joyRL

1.什么是试错学习?举例说明?

答:

试错学习(trial and error learning)是通过反复尝试和修正错误来解决问题和学习新技能的方法。

关键词:尝试;修正错误;强化学习的鲜明要素

举例:儿童走路等

2.什么是马尔可夫决策过程?什么是有限的马尔可夫决策?举例说明?

答:

马尔可夫决策过程:(markov decision process,MDP):智能体(agent)接收到状态(state),采用动作(action),达到新的状态(state),环境给出奖励(reward)。

有限的马尔可夫决策(finite MDP):状态空间和动作空间是有限的。

举例:4*4网格的导航

关键词:状态空间S;动作空间A;状态转移概率P;奖励函数R;

3.什么是马尔可夫性质?数学解释?

答:

马尔可夫性质:无记忆性。即知道s(t)即可计算s(t+1)。

关键词:无记忆性;马尔可夫性质;


4.介绍AlphaGO算法?简单理解?

答:

AlphaGo是由谷歌旗下的DeepMind公司开发的一种人工智能程序,它使用了深度学习和强化学习的结合来下围棋。AlphaGo的成功标志着人工智能在解决复杂问题上的一个重大突破。

5.引用折扣因子后的回报公式?折扣因子的大小关系?

答:

原始回报公式如下:。Gt代表是当前状态的累计回报;即t+1,t+2,t+3状态的回报相加

G_t = r_{t+1} + r_{t+2} + ...+r_T

为了处理持续性任务,加入折扣因子之后的表达式为:

G_t = r_{t+1} + \gamma r_{t+2}+ \gamma^2 r_{t+3} + ...=\sum_{k=0}^{T=\propto }\gamma^k r_{t+k+1} =r_{t+1} + \gamma G_{t+1}

\gamma = 0表示只考虑当前奖励;\gamma = 1 表示对所有的未来奖励都关注。

优势在于当前状态的累计回报与下一时刻的累计回报是有关联的。

关键词:折扣因子;累计回报

6.从马尔可夫链推导到状态转移矩阵?马尔可夫决策过程的常用写法及各参数含义?

答:

马尔可夫链。三个状态,其中还包含各状态转移的概率。

状态转移概率的计算,以从s1到s2为例,表示处于s1状态下,转移到s2的概率。计算如下:

P_{12} = P(S_{t+1} = s_2 | S_t = s_1)=0.4

由此可以得到状态转移矩阵。

马尔可夫决策过程的常用写法:<S, A, R, P, \gamma>

S为状态空间,A为动作空间,R为奖励空间,P为状态转移概率;\gamma为折扣因子。

7.强化学习所解决的问题一定要严格满足马尔可夫性质吗?请举例说明。

答:

不一定。马尔可夫性质表示下一步的状态只与当前状态有关,与之前的状态无关,即无记忆性。

举例:棋盘的下棋,之前的棋子也会影响局势。

8.实现动态规划问题求解总路径和问题?并总结一般思路?

答:

动态规划的一般思路:确定状态;找到状态转移方程;寻找边界条件

路径规划问题求解:

f(i,j)为当前位置状态的总路径和,则分析可以得到状态转移方程为

f(i,j) = f(i-1,j)+f(i,j-1)

同时设置边界条件为i=0,f(i,j) = 1
j = 0, f(i, j)=1i=0,j=0,f(i,j) = 0可得到最终的状态转移方程,则问题得以求解。

关键词:最优化原理(具有最优子结构);无后效性;重叠子问题;

9.数学公式状态价值函数的理解?动作价值函数的理解?推导两者的关系?

答:

状态价值函数:表示在状态s的情况下,执行策略\pi所能得到的回报奖励期望值

V_\pi(s) = \mathbb{E}_\pi [R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s] = \mathbb{E}_\pi [G_t \mid S_t = s]

参数解释:

\mathbb{E}为期望计算符;s为状态;\gamma
表示折扣因子;

动作价值函数:表示在状态s,动作a的情况下,执行策略\pi所能得到的回报奖励期望值

Q_\pi(s,a) = \mathbb{E}_\pi[G_t|s_t = s, a_t =a]

两者之间的关系,通过全期望公式来推导。即对于每一个动作a的回报期望值,乘以a在s中的概率分布

V_\pi(s) = \sum_{a\in A}\pi(a|s)Q_\pi(s,a)

10.贝尔曼方程的推导和理解?

答:

推导略。

理解:当前的状态价值函数等于当前的实时状态值加上未来状态值的折扣期望。


11.策略迭代的数学理解?简单举例说明?

答:

策略迭代分为两个步骤,策略估计和策略改进。

策略估计:首先固定策略𝜋不变,然后估计对应的状态价值函数𝑉

策略改进:根据估计好的状态价值函数𝑉结合策略推算出动作价值函数𝑄,并对 𝑄 函数优化然后进一步改进策略𝜋

12. 价值迭代的数学理解?简单举例说明?

答:

 价值迭代:首先将所有的状态价值初始化,然后不停地对每个状态迭代,直到收敛到最优价值𝑉∗,并且根据最优价值推算出最优策略𝜋∗。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容