注:以下内容基于CS598.
1. Estimate Model
给定数据集, 采用极大似然对模型进行估计。用表示的样本数。
2. Analysis of Certainty-Equivalence RL
2.1 Naive analysis
根据Hoeffding's Inequality: With probability at least ,
将失败率分别平摊到 和个事件上,有:
所以, 定义为一个维的vector,有:
-
Lemma 1(Simulation Lemma)
If and , then for any policy , we have
Proof:
-
Lemma 1(Evaluation error to decision loss)
Proof:
Here supresses poly-logarithmic dependences on and .
2.2 Improving to
对于任意向量, 有
所以对于任意给定的 和任意给定的, 是以为界的随机变量,以至少, 有
所以, 以至少的概率,有
所以,