2.4Incremental Implementation 背景:目前的行动价值方法都将行动价值估计为观察到的奖励的样本平均值。现在转向如何以计...
收录了1篇文章 · 1人关注
2.4Incremental Implementation 背景:目前的行动价值方法都将行动价值估计为观察到的奖励的样本平均值。现在转向如何以计...
专题公告
Richard S. Sutton 教授与 Andrew G. Barto 教授合著的第二版笔记