FMDs
FMDs(finite Markov decision processes):对在一种连续性过程中不断做出决策的形式化,也是强化学习问题理想的数学形式化:即当前的action产生的效果不仅影响即刻奖励,而且还会决定后续的states,进而影响未来的奖励。因此MDPs需要对即刻奖励和延迟奖励做tradeoff。
3.1 Agent-Encvironment Interface
如图,假设时间是离散的,
这样的一个MDPs产生的一系列称为一个trajectory:
之所以称为有限马尔科夫过程,是因为状态集合和动作集合、奖励集合都是有限的。
上述过程定义了一个概率分布:
函数
Markov property:当前的state对未来产生影响的假设。
有了函数,即可计算:
通常,actions可以视为我们需要学习如何去做的任意决策,states可以视为任何对学习做决策有帮助的信息。
通常,不能被agent以任何形式改变的部分都视为属于Environment。比如Reward总是被视为属于环境部分,因为Reward的计算在不能被agent任意改变。总之,环境-代理的边界是代理的绝对控制极限。
归纳而言,MDPs抽象为三种信号在agent和environment之间反复传播的模型:
- 代理agent做出的选择:即动作。
- 代理做出选择的依据:即外部传来的状态。
- 代理反复训练的目标:即rewards。
3.2 Goals and Rewards
agent的目标是最大化累计奖励(cumulative reward); 用奖励作为目标是强化学习的最大特征之一。
3.3 Returns and Episodes
如何把学习目标:最大化奖励做到呢?这里,形式化的定义是必不可少的,如果时间以后得到的一系列奖励记为的话,之后我们期望得到的回报记为,这是关于一系列奖励的一个函数,简单看作全部相加的过程的话,我们得到:
这里的
这里,任务可以分为
episodic task:如迷宫游戏;每一个episode的结束状态称为terminal state,很多个episode组成这样一个任务。
-
continuing task:如机器人,这样的任务有很长的生命周期,时间点几乎无限,所以如何衡量累计奖励呢?我们引入discounting的概念。
discounting:,看公式:
原来是一个参数值,在[0,1]范围,这样的话随着时间增长累计奖励也总是有限范围,这个参数称为折扣率(discount rate)。 这里看出强化学习的一个重要观点:连续时间点给出的回报之间是有关联的。