Offline RL

1. 综述

参考:https://zhuanlan.zhihu.com/p/341502874

1.1 一图概览offline RL

参考Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
参考作者视频:Video1Video2


上图(a), (b)分别表示online RL和off-policy RL,区别在于是否有一个buffer。(c)表示了offline RL,用一个behavior policy 采样一系列数据,放在buffer,离线训练policy,只是test的时候再跟环境交互。

1.2 Offline RL问题综述

任何off-policy RL的方法都可以用来做offline RL,一共4类方法
(1)Policy Gradient 策略梯度
(2)Approximate dynamic programming 近似动态规划:即求Q函数的通用方法(都用到了bellman方程),包括Q-learning等方法
(3)Actor-Critic algorithms:结合了policy gradient和approximate dynamic programming
(4)Model-based RL:会估计状态转移函数T的(①只学T+planning,②还学了policy的,③使用model扩充数据集)

1.3 Offline RL方法

方法1:基于重要采样的离线RL与离线策略评估

  • 重要采样法进行离线策略估计(Off-Policy Evaluation via Importance Sampling)
    (1)利用importance sampling,和训练得到的proposal distribution求真实π无偏估计。
    (2)缺点:variance太高了。
    (3)改进:doubly robust estimator

  • 离线策略梯度(The Off-Policy Policy Gradient)
    (1)直接让上述最原始的importance sampling估计出来的J(πθ)
    对θ求导,并且把accumulated reward替换成baseline(Advantage),可以得到policy gradient(证明推导都跟PG一毛一样)
    (2)限制让behavior policy 和target policy 尽可能相似,加一个constraint

  • 近似的离线策略梯度(Approximate Off-Policy Policy Gradients)
    (1)计算Q的时候state的分布是离线采样得到的,但action仍然是πθ给出的。

  • Marginalized Importance Sampling:比较复杂,跳过

    image.png

  • 方法1的挑战和问题
    (1)上面几个方法还很少在offline RL里用,大多还是用在off-policy里
    (2)Importance sampling 已经有很高的variance了,并且时序下累积,那么这个variance就会exponential blowup. 因此适用于当policy和behavior policy相差不大的情况.
    (3)Importance sampling的主要挑战有3个:① Behavior policy是suboptimal;②State action space 的高维度;③The effective horizon of the task。

方法2:基于动态规划法的离线RL

两步走:step1从Dataset中学出一个Q函数,step2通过Q函数来做policy的提升

  • 使用线性函数估计Q函数(传统做法)
    (1)尽管现在都喜欢用神经网络来参数化Q函数,但是线性函数估计Q函数是一个offline RL算法的重要组成。仅需学习一个线性参数。
    (2)仅适用于有限的action和state的情形下估计。可使用的解法
    ①贝尔曼残差最小化法(Bellman residual minimization)
    ②最小二程不动点估计法(Least-square fixed point approximation)
    ③最小二程时序差分Q-learning(Least squares temporal difference Q-learning (LSTD-Q))
    ④最小二程策略迭代(Least squares policy iteration (LSPI))
  • Distributional Shift in Offline RL Learing via Dynamic Programing 离线强化学习的分布偏移问题
    (1)分析一下出现了偏移的分布:test的时候state和action分布都shift了,train的时候state分布没偏移,但action的分布偏移了,不一定在Dateset中,Q估计就不准。
    (2)减少这种action分布偏移的方法是让learned policy和behavior policy的差距尽量小。限制KL散度
  • Policy constraints for off-policy evaluation and improvement 策略约束
    (1)让learned policy和behavior policy尽可能接近,可以把约束施加在①actor上(policy constraint),②reward function上或者target-Q value上(policy penalty)。使用两个分布的距离D来约束
    (2)距离D的形式可以有两种:① 显式f散度约束(Explicit f-divergence constraints)包括KL散度之类的,②隐式f散度约束(Implicit f-divergence constraint)例如用Q的指数加权 behavior policy,③Integral probability metrics (IPOMs)
  • 基于不确定性估计的离线近似动态规划 (Offline approximated dynamic programming with uncertainty estimation)
    (1)不同于上述constraint的思路,希望让Q function对于out of distribution action 更加resilient,按照两种不确定性(注意不确定性的概念,不是模型输出的概率,而是模型多次输出action是否相同的概率)
    ①数据不确定性:data可能出错
    ②模型不确定性:学到的模型参数可能有错进一步导致模型输出有错。
    (2)可以使用ensemble的方式通过衡量输出的variance来估计不确定性。
  • 方法2的的挑战和问题
    (1)『不确定估计』在效果上比『策略约束』差,因为在Online RL中,不确定性通常是针对策略π的,只需要估计单步action的不确定性,但Offline RL,对于Q函数的不确定估计考虑了未来每一步的回报,更难。
    (2)但『策略约束』也有很多问题,首先behavior policy是从Dataset中学出来的,而不是给定的,所以进一步学习也会受限于behavior policy的好坏。现在只能依赖估计。
    (3)即便估计准确了,估计Q函数还可能出现过拟合的问题,如果state-action 分布很狭窄,那么用神经网络学出来的Q函数产生的结果泛化能力也很低
    (4)还有一个大问题:误差随着步长累积。除了train的时候有影响,test的时候也会因为state分布有shift而影响,所以『策略约束』一定要足够强,但是这会限制策略提升的空间。问题:如何平衡分布偏移和策略提升的次优性,并且可以不需要额外的函数来估计behavior policy

方法3:基于模型的离线强化学习 (Offline Model-Based RL

  • 没有方法,只有挑战

  • 方法3的的挑战和问题
    (1)先学状态转移模型T,然后直接通过planning来生成action,或者直接训练一个policy函数
    (2)核心问题:数据集学出来的状态转移模型T是对于behavior policy的,并非对应learned policy,还是distributional shift
    (3)目前极少工作探讨offline model-based RL,本身online model-based RL就有自身的挑战,难以解决高维的state和long horizon
    (4)是否model-based模型能在理论上帮助提升model-free DP还是一个公开问题,因为DP虽然没有直接学一个动态模型,但约等于学了一个无参数模型
    (5)本质上DP和model-based RL都是在做预测问题。前者预测future return,后者预测future states,因此offline RL 对于non-linear函数估计的model-based mocel与DP 方法的theoretical bounds on the optimal performance也是一个公开问题

  • 作者在视频分享里提及的文章

    importance sampling

    Model selection

    modern RL

文献:
[1] Schulman, J., Levine, S., Abbeel, P., Jordan, M., and Moritz, P. (2015a). Trust region policy optimization. In International conference on machine learning, pages 1889–1897.
[2] Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S. (2019a). Stabilizing off-policy q-learning via bootstrapping error reduction. In Advances in Neural Information Processing Systems, pages 11761–11771.

2. Offline Reinforcement Learning NeurIPS 2020 Tutorial

Aviral kumar Sergey Levine
UC Berkeley
video

2.1

机器学习有用:大规模数据,可以识别图像、声音、翻译
强化学习:需要实时更新dataset,我们能开发data-driven RL method吗


tutorial目录

Offline RL的要求
(1)有一个好的数据集,包含了好的动作和坏的动作轨迹
(2)泛化能力
(3)stitching:有一些好的动作可以合并,比如从找到了从A到B和从B到C的路径,可以合并成从A到C的路径。

分析一个case


image.png

使用了Offline QT-opt算法和Finetuned QT-Opt算法训练
问题:考虑这种情况,在纯粹的offline RL上(纯offline数据集)增加online fine-tuning(online数据集,可以比offline的小10倍),可以比offline的成功率高很多(87%->96%)

为什么offline RL这么难:
(1)可能存在overfitting?有实验证明数据集大小对于HalfCheetah实验的效果影响不大而且看起来不像overfit了,但数据集越小q-function越容易被高估
(2)training data不够好
(3)distribution shift:dataset里的behavior policy 和 learned policy不一致
(4)sampling & function approximation error:本身online RL就存在,offline RL会更严重

Offline RL with policy gradient
(1) 使用importance sampling

An Optimistic Perspective on Offline Reinforcement Learning

论文:https://arxiv.org/abs/1907.04543
代码:https://github.com/google-research/batch_rl
中文:https://www.linkresearcher.com/theses/14edb429-a231-4009-a0f5-70b7712300d7

motivation:

  1. Agent interacts with an online environment,which limits online RL’s applicability to complex real world problems. (expensive data or high-fidelity simulator)
  • robotics
  • autonomous driving
  • recommendation systems
  • healthcare
  1. enable better generalization by incorporating diverse prior experiences

contribution:

  1. An offline RL setup is proposed for evaluating algorithms on Atari 2600 games
  2. show that recent off-policy RL algorithms trained solely on offline data can be successful,attributed to the differences in offline dataset size and diversity as well as the choice of RL algorithm.
  3. present Random Ensemble Mixture (REM),outperforms offline QR-DQN


    different DQN

problem

  1. using a fixed dataset of experiences,isolate an RL algorithm’s ability to exploit experience and generalize vs. its ability to explore effectively(将利用和探索的能力分开来)
  2. without correcting for distribution mismatch. 当前策略和离线数据收集策略之间的分布不匹配,难确定奖励

algorithm

  1. ensembling is used on improving generalization in the offline setting.
  2. Random Ensemble Mixture (REM):用一种计算效率高的方式在指数数量的q估计上使用ensemble。
    (1)首先使用多个参数化q函数来估计q值
    (2)关键点:我们可以将多个q值估算的凸组合视为q值估算本身:train a family of Q-function approximators defined by mixing probabilities on a (K − 1)-simplex.

some points

  1. Increasing the number of models used for ensembling typically improves the performance of supervised learning models

NeurIPS 2020 Offline RL Tutorial

https://sites.google.com/view/offlinerltutorial-neurips2020/home

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容