Q-Learning基础

一 背景

在前面的一小节中, 涉及到了一种蛇棋的游戏。 我们具有上帝视角,知道环境运转的细节,即知道状态的转移概率。但是在现实中,大部分都没有这种上帝视角, 所以在这部分对蛇棋游戏进行升级:我们将不再对玩家显示棋盘信息和骰子可能的投掷数目。 每次玩家选择完所使用的手法后, 玩家将直接得到棋子的下一个位置, 而不会知道其他任何信息。

在这种新的规则下, 新算法大致思路是:

1. 确定一个初始策略

2. 用这个策略进行游戏,得到一些游戏序列

3. 一旦游戏的轮数达到一定的数目, 就可以认为这些游戏序列代表了当前策略与环境的交互表现,就可以将这些序列聚合起来,得到状态对应的值函数。

4. 得到了值函数, 就相当于完成了策略的评估过程, 这样就可以继续按照策略迭代的方法进行策略改进的操作,得到更新后的策略。如果策略更新完成,则过程结束;否则回到步骤2.

解决的方法有:蒙特卡罗法和时序差分法。

二 蒙特卡罗法

假设通过一些方法, 从状态s和行动a开始不断与环境交互,得到了大量的样本序列。

                                        \{s_t, a_t,s_{t+1}^i, a_{t+1}^i,s_{t+2}^i, a_{t+2}^i, . . \}_{i=1} ^N

对应的回报序列为\{ r_t, r_{t+1}^i, r_{t+2}^i,..   \}_{i=1} ^ N

通过上述的样本序列逼近真实的期望值,那么公式就可以近似等于:

                                                q(s, a) \approx \frac{1}{N}\sum_{i=1}^N\sum_{k=0}^\infty\gamma ^kr_{t+k}

如果序列是有限的, 我们也可以直接使用序列产生的回报和作为价值:

                                                q(s, a) \approx \frac{1}{N} \sum_{i=1}^N(r_i^i +r_2^i +...)

蒙特卡罗法:

1. 让Agent和环境交互得到序列

2. 通过序列计算出每一时刻的价值

3. 将这些价值累积到值函数进行更新

4. 根据更新的值函数更新策略

要计算期望价值, 要将所有观察到的长期回报求平均值, 那么令状态行动价值为q, 当前的时间为t,积累的数量为N,我们要求的值为q_t^N, 当前已知的值为q_t^{N-1} 和 N, 每一时刻的价值为r_t^i,于是:

                                                         q_t^N = \frac{1}{N}\sum_{i=0}^N r_t^i

                                                               =\frac{1}{N}[\sum_{i=0}^{N-1} r_t^i + r_t^N ]

                                                              = \frac{1}{N} * (N - 1)q_t^{N-1} + \frac{1}{N} r_t^N

                                                            = r_t^{N-1} + \frac{1}{N}(r_t^N - q_t^{N-1})

具体代码如下:

ModelFreeAgent
蒙特卡罗方法

蒙特卡罗方法问题之一:方差较大

三 时序差分法

时序差分法TD是一种结合了蒙特卡罗法和动态规划法的方法。迭代公式是:

时序分差法核心迭代公式
TD代码

注意点: 更新值函数用的是完整的序列

四 Q-Learning

Q-Learning 迭代公式

迭代更新核心公式

SARS 算法遵从了交互序列, 根据下一步的真实行动进行价值估计;Q-Learning算法没有遵循交互序列, 而在下一时刻选择了使价值最大的行动。

核心代码

五 DQN算法

Q-Learning模型本身不太稳定,原因在于:

1. 计算当前状态行动下的价值目标值: \Delta q(s, a) = r(s^\prime)  + max_{a^\prime}q^{T-1}(s^\prime,a^\prime)

2. 网络模型的更新:q^T(s,a) = q^{T-1}(s, a) + \frac{1}{N}[\Delta q(s,a) - q^{T-1}(s,a)]

可以看出模型通过当前时刻的回报和下一时刻的价值估计进行更新。这里存在一些隐患, 前面提到数据样本差异可能造成一定的波动, 由于数据本身存在不稳定性, 每一轮迭代都可能产生一些波动, 如果按照上面的计算公式,这些波动会立刻反映到下一个迭代的计算中,这样就很难得到一个平稳的模型。因此引入了目标网络的概念,引入一个结构完全相同的模型, 目标网络,原本的网络被称为表现模型,具体如下:

1. 在训练开始时, 俩个模型使用完全相同的参数

2. 在训练过程中, 表现网络得到的目标价值由目标网络得到;然后用它和表现网络的估计值进行比较得出目标值并更新表现网络。

3. 每当训练完一定轮数迭代后,表现网络的参数同步给目标网络。

六 Double Q-Learning

虽然DQN方法提高了模型的稳定性, 但它并没有解决另一个问题,Q-Learning对价值过高估计的问题。

我们已经知道目标网络求解价值值的公式:

                                y_j = r_{j+1} + \gamma max_{a\prime} Q(s_{j+1}, a\prime;\theta ^ -)

其中\theta ^ -表示目标网络的参数。 将公式进一步展开, 可以得到更详细的公式内容:

                        y_j = r_{j+1} + \gamma Q(s_{j+1}, argmax_{a\prime}Q(s_{j+1}, a\prime;\theta ^ -); \theta^-)

公式展开后,我们发现采用目标网络结构后, 模型在选择最优行动和计算目标值时依然使用了同样的参数模型, 这样必然会造成对价值过高的估计。为了尽可能减少对高估的影响, 一个简单的办法就是把选择最优行动和估计最优行动俩部分的工作分离, 我们用表现网络完成最优行动的选择工作, 这样就可以得到:

                        y_j = r_{j+1} + \gamma Q(s_{j+1}, argmax_{a\prime}Q(s_{j+1}, a\prime;\theta); \theta^-)

通过这样的变化, 算法在三个环节的模型安排如下:

1. 采样: 表现网络

2. 选择最优行动: 表现网络

3. 计算目标价值:目标网络

七 Dueling DQN

Dueling DQN是一种基于DQN的改进算法, 它的主要突破点在于利用模型结构将值函数表示成更细致的形式, 这使得模型能够拥有更好的表现。如下公式:

                                 q(s_t, a_t) = v(s_t) + A(s_t, a_t)

V(s)状态的值函数和优势函数A(s, a)。如果所有状态行动的值函数不相同, 一些状态行为的价值q(s, a)必然会高于状态的价值v(s), 当然也会有一些状态行动对低于价值, 于是优势函数可以表示出当前行动和平均表现之间的区别:如果优于平均表现,那么优势函数为正;反之则为负。

这样分解输出的有点在于:

1. 通过这样的分解, 我们不但可以得到状态和行动的q值,还可以同时得到V值和A值。 

2. 从网络训练角度来看, 我们从原本需要训练|A|个取值为[0, \infty]的数值, 变成了训练一个取值为[0,\infty]的数值, 和|A| 个均值为0, 实际上取值为[-C, C]的数值.

3. 对于一些强化学习的问题来说, A值的取值范围远比V值小,这样将俩者分开训练更容易保持行动之间的排列顺序。由于我们需要从所有行动中挑选出价值最高的的, 因此不同行动之间的价值需要保持一定的区分度。由于A值的数值范围比较小,因此它对模型更新更敏感,这样模型在更新时会更容易考量与其他行动的相对变化量, 也就不会因为一次的更新使得原本的行动排序被意外打破。

八 冷启动问题

强化学习问题都遇到了"冷启动"的问题。对于以值函数为核心的Q-Learning 算法来说, 前期的算法迭代很难让模型快速进入一个相对理想的环境, 更何况由于前期值函数存在较大偏差, 与环境交互得到的采样与最优策略存在一定的差别,增加了学习的难度。

本书中的思路是利用预先准备好的优质采样轨迹加快模型前期的训练速度。对一个未经任何训练的模型来说, 模仿优质采样轨迹的行动是一个不错的选择,因为模型训练初期Agent的策略相对较差, 从交互训练中学习效果不会很好, 而优质行动本身来自较强的策略, 这样就相当于直接站在巨人的肩膀上, 学习速度自然会快很多。只要我们有办法取得一定数量的优质轨迹,就可以通过学习完成与环境交互前的与训练。

除了使用监督学习预训练以外, 我们还要使用强化学习完成DQn模型原本方法中的训练。最终模型的目标函数变成了多个学习目标的形式:

                            J(q) = J_{DQ}(q) + \lambda_1J_n(q) + \lambda_2J_E(q) + \lambda_3J_{L2}(q)

这个目标函数包含了4个子目标。

1. J_{DQ}(q) : Deep Q-Learning的目标函数

2. J_n(q):   以n步回报法估计法为目标的Q-Learning目标函数

3. J_E(q):利用准备数据进行监督学习的目标函数

4.J_{L2}(q): L2正则的目标函数

对于序列比较长的问题, 这种方法有一个缺陷,那就是价值需要一定时间的训练才能跳过前面波动的时期,进入相对稳定的更新时期。为了使模型的更新进行的更快, 我们可以将上面的公式进一步展开, 不仅用下一时刻的回报,而是将此后更多时刻的回报加入目标值中。

            q\prime(s_t, a_t) = r_{t+1}+ \gamma r_{t+2} + ...+\gamma^{n-1} r_{t+n} + max_a\gamma^nq(s_{t+n+1}, a)

这个估计方法公式被称为n步回报的估计法,可以看出这个方法结合了蒙特卡罗法的特点,在公式中使用了更多真实的交互回报,这样更容易在模型训练早期将值函数做快速更新,一般来说可以设置成n=10.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容