一般的RL问题需要符合如下条件:
不同的动作导致不同的回报。举个例子,在迷宫中寻找宝藏,如果往左就能获得宝藏,往右就什么都得不到。
回报在时间上有延迟。沿用上述的例子,在迷宫中往左时,我们并不是立即知道我们走的就是正确的方向。
某个动作下的回报跟当时的环境有关。继续刚才的例子,往左边是当前情况下的最佳选择,在其他情况下就不一定了。
不同的动作导致不同的回报。举个例子,在迷宫中寻找宝藏,如果往左就能获得宝藏,往右就什么都得不到。
回报在时间上有延迟。沿用上述的例子,在迷宫中往左时,我们并不是立即知道我们走的就是正确的方向。
某个动作下的回报跟当时的环境有关。继续刚才的例子,往左边是当前情况下的最佳选择,在其他情况下就不一定了。