Model-Free Prediction
Interduction
区别
- 上节课讲已知MDP, 使用动态规划方法来获得最优value function 和 policy。
- Model Free 不知道环境如何运作,直接从经验中,从代理和环境的交互中更新value function和 policy。
- 本节课将给定policy, 不知道环境状态和value function,评估 policy可以获得多少reward。
-
下节进行control,获得最优的价值函数和MDP的最优策略。
Monte-Carlo 蒙特卡罗方法
- 在不知道环境如何运作的条件下得到价值函数--蒙特卡洛方法。
- 学习已经完成的回合。
-
使用经验均值取代预期反馈value=mean。
是否能得出这个平均值适应轨迹上的所有状态?
-
初访蒙特卡洛政策评估方法
1.1 第一个episode可见,计算访问第一个状态计数,计算最后一个episode与第一个差值,求平均值,根据大数定理,N足够大,均值等于期望值。
-
每次访问蒙特卡洛方法
2.1 访问每个eipsode,多次增加计数器。
栗子
-
21点游戏
1.1 dealer 庄家 庄家有自己的加牌策略 但是我们不知道
1.2 三种状态 手牌点数和 手中是否有A 庄家展示的牌的点数
1.3 z轴reward xy轴 专家展示的点数和你手头点数和,JQK在该游戏中当做10
1.4 下图展示的是不成熟的policy,预期反馈是已知policy反馈的value function,可以利用这个value function做很多事。
递增的蒙特卡洛方法
-
平均值可以被递增的计算出来 不一定要完成所有计算才能计算平均值。
- 访问每个episode,递增更新平均值。我们要获取的还是完整的均值。
2.1 增加一个固定步长,忘记早期估计。
瞬时分叉学习
-
利用不完整的episodes, 叫做 bootstrapping,即更新最初的猜想,来估计之后的猜想。
- 总回报等于即时回报加上之后value function的折扣值。
- 蒙特卡洛方法是用均值代替,而TD方法用TD target代替。
4.蒙特卡洛方法中估计值的更新总是延迟的,而TD方法中的能有即时的更新。
-
根据更新当前估计,从而更新之后估计,计算TD Target。
-
TD方法的即时更新 同 MC方法比较。
-
TD方法优点。
-
下图1,2都给了我们无偏估计。
-
MC方法具有更小偏差,而TD方法更有效率
Batch MC and TD
- MC方法总是收敛到能最大减少均方误差的解决方法。
-
TD方法会利用最相似MDP解决问题,实际上利用了MDP的特性。