DQN - 简书

一、强化学习

1.主要部分

Agent， State ， Reward， Environment， Action

2.方法

1) Value-based

learning a critic, 评价现在的行为有多好

Q-Learning：

~训练的目标是什么？

训练的critic，输入有两个，当前的state和使用的Actor。

~critic的输出是什么？怎么评价Actor的好坏？

输出是预期的Reward

~Q-function

评价函数Q-function与Actor Π的关系

~训练Q网络的tips

Q网络的训练过程

观察上图，可知在迭代过程中会有两个相同的网络，会进行两次参数的调整，该过程会使模型训练过程不稳定，处理方法是对其中一个网络进行参数固定，训练另一个网络。

使用replay buffer

2) Policy-based

~谁来判断下一步的动作？

learning a actor，Actor用来做Action，可以是一个NN，输出做不同动作的概率

~如何定义Actor的好坏？

将每个episode的total reward（记为R）作为真实标签（即使是相同参数的Actor，不同的eposide也会有不一样的total reward，因为NN输出的是概率）

使用期望值R'作为评价模型的指标，R'的定义如下：计算该参属下所有{a，r}的序列，求出期望值，但通常由于序列太多，采用跑N次取平均的采样方式。

NN的评价标准（Rθ相当于Loss）

梯度下降过程

求ΔlogP(t|θ)

最终表达

此时，如果最终的reward是正的，则会朝着在增加概率的方向优化。

3. 缺点

1) reward delay

2) 不会轻易尝试之前没有尝试过的action

二、On-policy vs Off-policy