一、强化学习
1.主要部分
Agent, State , Reward, Environment, Action
2.方法
1) Value-based
learning a critic, 评价现在的行为有多好
Q-Learning:
~训练的目标是什么?
训练的critic,输入有两个,当前的state和使用的Actor。
~critic的输出是什么?怎么评价Actor的好坏?
输出是预期的Reward
~Q-function
评价函数Q-function与Actor Π的关系
~训练Q网络的tips
Q网络的训练过程
观察上图,可知在迭代过程中会有两个相同的网络,会进行两次参数的调整,该过程会使模型训练过程不稳定,处理方法是对其中一个网络进行参数固定,训练另一个网络。
使用replay buffer
2) Policy-based
~谁来判断下一步的动作?
learning a actor,Actor用来做Action,可以是一个NN,输出做不同动作的概率
~如何定义Actor的好坏?
将每个episode的total reward(记为R)作为真实标签(即使是相同参数的Actor,不同的eposide也会有不一样的total reward,因为NN输出的是概率)
使用期望值R'作为评价模型的指标,R'的定义如下:计算该参属下所有{a,r}的序列,求出期望值,但通常由于序列太多,采用跑N次取平均的采样方式。
NN的评价标准(Rθ相当于Loss)
梯度下降过程
求ΔlogP(t|θ)
最终表达
此时,如果最终的reward是正的,则会朝着在增加概率的方向优化。
3. 缺点
1) reward delay
2) 不会轻易尝试之前没有尝试过的action
二、On-policy vs Off-policy