1. 综述

参考：https://zhuanlan.zhihu.com/p/341502874

1.1 一图概览offline RL

参考Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems。
参考作者视频：Video1、Video2

上图(a), (b)分别表示online RL和off-policy RL，区别在于是否有一个buffer。(c)表示了offline RL，用一个behavior policy 采样一系列数据，放在buffer，离线训练policy，只是test的时候再跟环境交互。

1.2 Offline RL问题综述

任何off-policy RL的方法都可以用来做offline RL，一共4类方法
（1）Policy Gradient 策略梯度
（2）Approximate dynamic programming 近似动态规划：即求Q函数的通用方法（都用到了bellman方程），包括Q-learning等方法
（3）Actor-Critic algorithms：结合了policy gradient和approximate dynamic programming
（4）Model-based RL：会估计状态转移函数T的（①只学T+planning，②还学了policy的，③使用model扩充数据集）

1.3 Offline RL方法

方法1：基于重要采样的离线RL与离线策略评估

重要采样法进行离线策略估计(Off-Policy Evaluation via Importance Sampling)：
（1）利用importance sampling，和训练得到的proposal distribution求真实π无偏估计。
（2）缺点：variance太高了。
（3）改进：doubly robust estimator
离线策略梯度(The Off-Policy Policy Gradient)
（1）直接让上述最原始的importance sampling估计出来的J(πθ)
对θ求导，并且把accumulated reward替换成baseline（Advantage），可以得到policy gradient（证明推导都跟PG一毛一样）
（2）限制让behavior policy 和target policy 尽可能相似，加一个constraint
近似的离线策略梯度(Approximate Off-Policy Policy Gradients)
（1）计算Q的时候state的分布是离线采样得到的，但action仍然是πθ给出的。
Marginalized Importance Sampling：比较复杂，跳过

image.png
方法1的挑战和问题
（1）上面几个方法还很少在offline RL里用，大多还是用在off-policy里
（2）Importance sampling 已经有很高的variance了，并且时序下累积，那么这个variance就会exponential blowup. 因此适用于当policy和behavior policy相差不大的情况.
（3）Importance sampling的主要挑战有3个：① Behavior policy是suboptimal；②State action space 的高维度；③The effective horizon of the task。

方法2：基于动态规划法的离线RL

两步走：step1从Dataset中学出一个Q函数，step2通过Q函数来做policy的提升

使用线性函数估计Q函数（传统做法）
（1）尽管现在都喜欢用神经网络来参数化Q函数，但是线性函数估计Q函数是一个offline RL算法的重要组成。仅需学习一个线性参数。
（2）仅适用于有限的action和state的情形下估计。可使用的解法
①贝尔曼残差最小化法(Bellman residual minimization)
②最小二程不动点估计法(Least-square fixed point approximation)
③最小二程时序差分Q-learning(Least squares temporal difference Q-learning (LSTD-Q))
④最小二程策略迭代(Least squares policy iteration (LSPI))
Distributional Shift in Offline RL Learing via Dynamic Programing 离线强化学习的分布偏移问题
（1）分析一下出现了偏移的分布：test的时候state和action分布都shift了，train的时候state分布没偏移，但action的分布偏移了，不一定在Dateset中，Q估计就不准。
（2）减少这种action分布偏移的方法是让learned policy和behavior policy的差距尽量小。限制KL散度
Policy constraints for off-policy evaluation and improvement 策略约束
（1）让learned policy和behavior policy尽可能接近，可以把约束施加在①actor上（policy constraint），②reward function上或者target-Q value上（policy penalty）。使用两个分布的距离D来约束
（2）距离D的形式可以有两种：① 显式f散度约束（Explicit f-divergence constraints）包括KL散度之类的，②隐式f散度约束（Implicit f-divergence constraint）例如用Q的指数加权 behavior policy，③Integral probability metrics (IPOMs)
基于不确定性估计的离线近似动态规划 (Offline approximated dynamic programming with uncertainty estimation)
（1）不同于上述constraint的思路，希望让Q function对于out of distribution action 更加resilient，按照两种不确定性（注意不确定性的概念，不是模型输出的概率，而是模型多次输出action是否相同的概率）
①数据不确定性：data可能出错
②模型不确定性：学到的模型参数可能有错进一步导致模型输出有错。
（2）可以使用ensemble的方式通过衡量输出的variance来估计不确定性。
方法2的的挑战和问题
（1）『不确定估计』在效果上比『策略约束』差，因为在Online RL中，不确定性通常是针对策略π的，只需要估计单步action的不确定性，但Offline RL，对于Q函数的不确定估计考虑了未来每一步的回报，更难。
（2）但『策略约束』也有很多问题，首先behavior policy是从Dataset中学出来的，而不是给定的，所以进一步学习也会受限于behavior policy的好坏。现在只能依赖估计。
（3）即便估计准确了，估计Q函数还可能出现过拟合的问题，如果state-action 分布很狭窄，那么用神经网络学出来的Q函数产生的结果泛化能力也很低
（4）还有一个大问题：误差随着步长累积。除了train的时候有影响，test的时候也会因为state分布有shift而影响，所以『策略约束』一定要足够强，但是这会限制策略提升的空间。问题：如何平衡分布偏移和策略提升的次优性，并且可以不需要额外的函数来估计behavior policy

方法3：基于模型的离线强化学习 (Offline Model-Based RL

没有方法，只有挑战
方法3的的挑战和问题
（1）先学状态转移模型T，然后直接通过planning来生成action，或者直接训练一个policy函数
（2）核心问题：数据集学出来的状态转移模型T是对于behavior policy的，并非对应learned policy，还是distributional shift
（3）目前极少工作探讨offline model-based RL，本身online model-based RL就有自身的挑战，难以解决高维的state和long horizon
（4）是否model-based模型能在理论上帮助提升model-free DP还是一个公开问题，因为DP虽然没有直接学一个动态模型，但约等于学了一个无参数模型
（5）本质上DP和model-based RL都是在做预测问题。前者预测future return，后者预测future states，因此offline RL 对于non-linear函数估计的model-based mocel与DP 方法的theoretical bounds on the optimal performance也是一个公开问题
作者在视频分享里提及的文章

importance sampling

Model selection

modern RL

文献：
[1] Schulman, J., Levine, S., Abbeel, P., Jordan, M., and Moritz, P. (2015a). Trust region policy optimization. In International conference on machine learning, pages 1889–1897.
[2] Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S. (2019a). Stabilizing off-policy q-learning via bootstrapping error reduction. In Advances in Neural Information Processing Systems, pages 11761–11771.

2. Offline Reinforcement Learning NeurIPS 2020 Tutorial

Aviral kumar Sergey Levine
UC Berkeley
video

2.1

机器学习有用：大规模数据，可以识别图像、声音、翻译
强化学习：需要实时更新dataset，我们能开发data-driven RL method吗

tutorial目录

Offline RL的要求
（1）有一个好的数据集，包含了好的动作和坏的动作轨迹
（2）泛化能力
（3）stitching：有一些好的动作可以合并，比如从找到了从A到B和从B到C的路径，可以合并成从A到C的路径。

分析一个case

image.png

使用了Offline QT-opt算法和Finetuned QT-Opt算法训练
问题：考虑这种情况，在纯粹的offline RL上(纯offline数据集)增加online fine-tuning(online数据集，可以比offline的小10倍)，可以比offline的成功率高很多（87%->96%）

为什么offline RL这么难：
（1）可能存在overfitting?有实验证明数据集大小对于HalfCheetah实验的效果影响不大而且看起来不像overfit了，但数据集越小q-function越容易被高估
（2）training data不够好
（3）distribution shift：dataset里的behavior policy 和 learned policy不一致
（4）sampling & function approximation error：本身online RL就存在，offline RL会更严重

Offline RL with policy gradient
(1) 使用importance sampling

An Optimistic Perspective on Offline Reinforcement Learning

论文：https://arxiv.org/abs/1907.04543
代码：https://github.com/google-research/batch_rl
中文：https://www.linkresearcher.com/theses/14edb429-a231-4009-a0f5-70b7712300d7

motivation：

Agent interacts with an online environment，which limits online RL’s applicability to complex real world problems. （expensive data or high-ﬁdelity simulator）

robotics
autonomous driving
recommendation systems
healthcare

enable better generalization by incorporating diverse prior experiences

contribution：

An ofﬂine RL setup is proposed for evaluating algorithms on Atari 2600 games
show that recent off-policy RL algorithms trained solely on ofﬂine data can be successful，attributed to the differences in ofﬂine dataset size and diversity as well as the choice of RL algorithm.
present Random Ensemble Mixture (REM)，outperforms ofﬂine QR-DQN

different DQN

problem

using a ﬁxed dataset of experiences，isolate an RL algorithm’s ability to exploit experience and generalize vs. its ability to explore effectively（将利用和探索的能力分开来）
without correcting for distribution mismatch. 当前策略和离线数据收集策略之间的分布不匹配，难确定奖励

algorithm

ensembling is used on improving generalization in the ofﬂine setting.
Random Ensemble Mixture (REM)：用一种计算效率高的方式在指数数量的q估计上使用ensemble。
（1）首先使用多个参数化q函数来估计q值
（2）关键点：我们可以将多个q值估算的凸组合视为q值估算本身：train a family of Q-function approximators defined by mixing probabilities on a (K − 1)-simplex.

some points

Increasing the number of models used for ensembling typically improves the performance of supervised learning models

NeurIPS 2020 Offline RL Tutorial

https://sites.google.com/view/offlinerltutorial-neurips2020/home

Offline RL