一、目标概述
就是如何通过深度学习,训练得到actor(执行者,机器人)或policy(策略)。我们把actor/policy记作,actor根据环境给出下一步的行动或行动概率,即
.
actor/policy.png
二、期望回报的原理
设是神经网络
的参数,记作
,我们用这个actor去玩游戏:
- 看到现状
,采取动作
, 获得奖励
- 看到现状
,采取动作
, 获得奖励
…… - 看到现状
,采取动作
, 获得奖励
总得分:
但是即使是不变,State也是具有随机性的,每轮游戏的得分
还是不一样的,因此我们用得分的平均数(期望)
来评估
的性能。
定义: 我们把一轮游戏记作一个,一轮游戏的得分记作
,再考虑上actor的参数
,那么各种游戏场面出现的概率也是依赖于
的,最后“期望回报”其实是一个概率加权平均
。
近似:我们怎么获得呢?那就让
去玩好多次游戏,得到
经过统计就知道游戏各场面出现的概率
,代入上面式子就会发现:
(中心极限定理:样本的平均值约等于总体的平均值。 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。)
三、策略梯度
最优参数
梯度下降(gradient ascent):
- start with
-
……
上面这个式子是原理,实际上计算或编程的时候,怎么算呢?
所以: