Model-based RL

注:以下内容基于CS598.

1. Estimate Model

给定数据集D=\{(s_1, a_1, r_1, s_1^\prime), (s_2, a_2, r_2, s_2^\prime) \cdots (s_n, a_n, r_n, s_n^\prime) \}, 采用极大似然对模型进行估计。用|D_{s,a}|表示(s_i=s, a_i=a, \cdots)的样本数。

\hat P(s^\prime|s, a) = \frac{1}{|D_{s,a}|} \sum_{(r, s^\prime) \in D_{s,a} }\mathbb{I}_{s^\prime}

\hat R(s,a) = \frac{1}{|D_{s,a}|} \sum_{(r, s^\prime) \in D_{s, a}} r

2. Analysis of Certainty-Equivalence RL

2.1 Naive analysis

根据Hoeffding's Inequality: With probability at least 1-\delta,

|\frac{S_n}{n} - \frac{\mathbb{E}[S_n|}{n}| \leq (b-a) \sqrt{\frac{1}{2n}\ln{\frac{2}{\delta}}}

将失败率\delta分别平摊到|S \times A||S \times A \times S|个事件上,有:

\max_{s,a} |\hat R(s,a) - R(s,a) | \leq R_{max} \sqrt{\frac{1}{2n}\ln{\frac{4|S| \times |A|}{\delta}}}

\max_{s,a, s^\prime} |\hat P(s^\prime|s,a) - P(s^\prime|s, a) | \leq \sqrt{\frac{1}{2n}\ln{\frac{4|S| \times |A| \times |S|}{\delta}}}

所以, 定义P(s,a) = P(\cdot|s,a)为一个|S|维的vector,有:

\max_{s, a} ||\hat P(s, a) - P(s, a)||_1 \leq \max_{s,a} |S| \cdot ||\hat P(s, a) - P(s, a)||_{\infty} \leq |S| \cdot \sqrt{\frac{1}{2n}\ln{\frac{4|S| \times |A| \times |S|}{\delta}}}

  • Lemma 1(Simulation Lemma)

If \max_{s,a}|\hat R(s,a) - R(s,a)| \leq \epsilon_R and \max_{s,a}|\hat P(s,a) - P(s,a)| \leq \epsilon_P, then for any policy \pi: S \to A, we have \forall s \in S
|| V^{\pi}_{\hat M} - V^{\pi}_{M} ||_{\infty} \leq \frac{\epsilon_R}{1 - \gamma} + \frac{\gamma \epsilon_P R_{max}}{2(1-\gamma)^2}

Proof: \forall s \in S
\begin{align*} | V^{\pi}_{\hat M}(s) - V^{\pi}_{M}(s) | &= | \hat R(s,a) + \gamma \hat {P}(s'|s,a) \cdot V^\pi_{\hat M}(s') - R(s,a) - \gamma P(s'|s,a) \cdot V^\pi_M(s')| \\ & \leq |\hat R(s,a)-R(s,a)| + \gamma | \hat P(s'|s,a) \cdot V^\pi_{\hat M}(s') - P(s'|s,a) \cdot V^\pi_M(s')| \\ &\leq \epsilon_R + \gamma |\hat P(s,a) \cdot V^\pi_{\hat M} - P(s,a) \cdot V^\pi_{\hat M} + P(s,a) \cdot V^\pi_{\hat M} - P(s,a) \cdot V^\pi_M| \quad (ignore \, s')\\ &\leq \epsilon_R +\gamma |(\hat P(s,a) - P(s,a)) \cdot V^\pi_{\hat M}| +\gamma | P(s,a) \cdot (V^\pi_{\hat M} - V^\pi_M) | \\ &\leq \epsilon_R + \gamma |(\hat P(s,a) - P(s,a)) \cdot (V^\pi_{\hat M} - \frac{R_{max}}{2(1-\gamma)} {\mathbf{1}} )| + \gamma ||(V^\pi_{\hat M} - V^\pi_M)||_{\infty} \\ &\leq \epsilon_R + \gamma ||\hat P(s,a) - P(s,a)||_{1} \times ||V^\pi_{\hat M} - \frac{R_{max}}{2(1-\gamma)} {\mathbf{1}} ||_{\infty} + \gamma |(V^\pi_{\hat M} - V^\pi_M)|_{\infty} \\ &\leq \epsilon_R + \gamma \frac{ \epsilon_P R_{max}}{2(1-\gamma)} + \gamma ||(V^\pi_{\hat M} - V^\pi_M)||_{\infty}\\ Thus,\\ (1-\gamma)& ||(V^\pi_{\hat M} - V^\pi_M)||_{\infty} \leq \epsilon_R + \gamma \frac{ \epsilon_P R_{max}}{2(1-\gamma)} \\ &||(V^\pi_{\hat M} - V^\pi_M)||_{\infty} \leq \frac{\epsilon_R}{1 - \gamma} + \frac{\gamma \epsilon_P R_{max}}{2(1-\gamma)^2} \end{align*}

  • Lemma 1(Evaluation error to decision loss)

\forall s \in S, V^*_M(s) - V^{\pi^*_{\hat M}}_M(s) \leq 2 \sup_{\pi: S \to A}||V^\pi_{\hat M} - V^\pi_{M}||_{\infty}.

Proof: \forall s \in S,
\begin{align*} V^*_M(s) - V^{\pi^*_{\hat M}}_M(s) &= V^*_M(s) - V^{\pi^*_M}_{\hat M}(s) + V^{\pi^*_M}_{\hat M}(s) - V^{\pi^*_{\hat M}}_M(s) \\ &\leq V^*_M(s) - V^{\pi^*_M}_{\hat M}(s) + V^{\pi^*_{\hat M}}_{\hat M}(s) - V^{\pi^*_{\hat M}}_M(s) \qquad ( \pi^*_{\hat M} \,maxmizes \quad v_{\hat M}) \\ & \leq || V^*_M(s) - V^{\pi^*_M}_{\hat M}(s)||_{\infty} + || V^{\pi^*_{\hat M}}_{\hat M}(s) - V^{\pi^*_{\hat M}}_M(s)||_{\infty}. \\ & \leq 2[\frac{\epsilon_R}{1 - \gamma} + \frac{\gamma \epsilon_P R_{max}}{2(1-\gamma)^2}] \qquad(Lemma \,1) \\ Thus, \\ V^*_M(s) - V^{\pi^*_{\hat M}}_M(s) &= \tilde{O} (\frac{|S|}{\sqrt{n}(1 - \gamma)^2}) \qquad \forall s \in S. \end{align*}
Here \tilde{O}(\cdot)supresses poly-logarithmic dependences on |S| and |A|.

2.2 Improving S to \sqrt{|S|}

对于任意向量v \in \mathbb{R}^{|S|}, 有
||v||_1 = \sup_{u \in {-1, 1}^{|S|}} u^T v.

所以对于任意给定的(s,a) 和任意给定的u \in \{-1, 1\}^{|S|}, u^T \hat P(s,a) 是以[-1, 1]为界的随机变量,以至少1 - \delta/(2|S\times A| \cdot 2^{|S|}), 有
u^T (\hat P(s,a) - P(s, a)) \leq 2 \sqrt{\frac{1}{2n} \ln \frac{2|S \times A| \cdot 2^{|S|}}{\delta}}

所以, 以至少1 - \delta/2的概率,有
\max_{s, a} ||\hat P(s,a) - P(s, a)||_1 = \max_{s,a} \max_{u \in {-1, 1}^{|S|}} u^T (\hat P(s,a) - P(s, a)) \leq 2 \sqrt{\frac{1}{2n} \ln \frac{2|S \times A| \cdot 2^{|S|}}{\delta}}

所以,
V^*_M(s) - V^{\pi^*_{\hat M}}_M(s) = \tilde{O} (\frac{ \sqrt{|S|}}{\sqrt{n}(1 - \gamma)^2}) \qquad \forall s \in S

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容