马尔科夫过程的优化强化学习是agent与环境之间的迭代交互,需要考虑几点:处于某种状态,决策者将在该状态下选择一个动作;能随机进入一个新状态并给决策者相应的回报作为响应;状态转移函数选择的动作将影响新状态的选择;