1.强化学习中的basic elements:
policy --相当与环境和动作之间的一个映射,在给定的state下执行何种action是由policy决定的。policy的所有可能组成一个policy空间,优化目标就是在这个巨大的空间中,学习到某一种最优的policy。
reward function -- 也可以看成是一个映射,关于当前的动作,或者当前环境和当前动作的pair的好不好的一个评价。属于立即评价,只考虑当前这一步的好坏。
value function -- 和上面的reward function对比着看,这一步考虑的是当前环境状态的长远优势,也就是以当前状态为起点,以后的多个时间点之后的各个状态的reward之和。如何更好的估计这个值,是几乎所有增强学习问题的解决重点和难点。这个也是如何评定一个policy好坏的标准。也是把增加学习和evoluation method (例如遗传算法)区别开的地方。
model of environment -- 对环境的建模。这个模型有点预测环境的走向的意思。比如,假如我有了这个模型,我可以知道在当下的环境下,下一步的环境状态和reward是什么。这样,我就不必去真实的走这一步,就已经知道结果了,也就是不用非得试错了。这是个新的发展方向。
关于evolution method 要多说点:它和强化学习的区别在于,它不利用任何你的过程信息,只使用结果。比如我采用某一个policy,我就用这固定的policy和环境进行多次实验,看看最后的结果概率分布,然后知道这个policy有多大概率赢。然后换下一个,继续大量实验。最后在policy空间里找到一个最优的。它的缺点是忽略了大量的实验过程信息,也即根本没有考虑到value function。