Policy-based approach
- learning a actor
machine learning for learning an actor
image.png
其中是期望值,形式为穷举所有的
,求这些trajectory的期望,如下所示:
image.png
image.png
可以看做是在做分类,
看做是sample training data weighted。
是 整场游戏得到的reward。
在训练过程中,training data在actor与environment交互中动态地搜集与sample data。
如果不能微分,就可以用Policy gradient 硬train一发
Tip 1 :Add a baseline
我们希望在好的state和action下reward增加, 不好的情况下reward下降。而reward可能一直都是正的。虽然gradient ascent, 不好的情况与好的情况, 增加的reward的程度是不同的,也能驱使学习好的action。但是在实际训练中, action是sample得到的,没有sample到的action,其reward不会增加,而不是因为其本身不好。
因此添加baseline , 调整期望值作为baseline,如果大于
,reward为正,反之为负。
Tip 2 : Assign suitable credit
反应的是整个游戏过程的reward,不能体现每个step的作用,因此将
替换为
,
代表衰减因子,小于1的值。在t之后的state的reward体现t步所采取的动作的效果。
表示
整体的公式可以为: