一个状态的下一个状态,是取决于当前状态,未来的转移跟过去是相互独立的,未来的转移只取决于现在。符合马尔科夫 特征。
描述状态转移可以使用情报轮里面的状态转移图。
马尔科夫奖励过程:就是马尔科夫链加上一个奖励函数,奖励函数是一个期望,当你到达某个状态的时候可以获得多大的奖励。
why discount factor y
1.avoids infinite returns in cyclic Markov processes 避免马尔科夫过程带环,避免没有终结,无穷的奖励
2.Uncertainly about the future may not be fully represented 希望能尽可能快的得到这个奖励
3.If the reward is financial , immediate rewards may earn more interest than delayed rewards 如果奖励有实际的价值,会希望能立即得到这个奖励。
4.Animal or human behavior shows preference for immediate reward 得到立刻奖励
5. It is sometimes possible to use undiscounted Markov reward processes (i.e. γ=1),e.g. if all sequences terminate
5.1 γ=0 Only care about the immediate reward
5.2 γ=1 Future reward is equal to the immediate reward
Bellman equation : describles the iterative relations of states
r为立即得到的奖励。加上一个折扣因子,乘上转移乘以未来的状态, 最后得到的当前状态的价值。
Analytic solution for value of MRP :V = (1-γP)逆R
但是时间复杂度为O(N三次方),只能用于很小量的马尔科夫奖励过程
Iterative methods for large MRPs:用迭代的方法求价值:
1.Dynamic Programming \
2.Monte-Carlo evaluation
3. Temporal-Difference learing TDLearing 上面两种的结合
对比马尔科夫奖励过程和马尔科夫决策过程:
MRP and MDP:
决策过程比奖励过程中间多了一层行为,action。在当前这个状态首先要决定某一种行为,到达黑色的节点,然后经过一个action动作,也是有概率分布,来到达下一个状态。由agent来决定,当前的状态转移。
剩下的等看第二遍在整理。。硬着头皮看,有些看不懂了