动态规划用来计算最优策略,条件是环境已知。
首先,环境已知的话,我们可以计算最优的value function:根据贝尔曼方程:
Policy Evaluation 策略估计
首先我们要根据已有的策略计算这个策略的value function:
所有的概率是已知的,直接计算。最好的方式是根据贝尔曼方程迭代计算:
迭代过程可以从以下伪代码中得出:
动态规划用来计算最优策略,条件是环境已知。
首先,环境已知的话,我们可以计算最优的value function:根据贝尔曼方程:
首先我们要根据已有的策略计算这个策略的value function:
所有的概率是已知的,直接计算。最好的方式是根据贝尔曼方程迭代计算:
迭代过程可以从以下伪代码中得出: