DQN

一、强化学习

1.主要部分

Agent, State , Reward, Environment, Action

2.方法

1) Value-based

learning a critic, 评价现在的行为有多好

Q-Learning:

~训练的目标是什么?

训练的critic,输入有两个,当前的state和使用的Actor。

~critic的输出是什么?怎么评价Actor的好坏?

输出是预期的Reward

~Q-function


评价函数Q-function与Actor Π的关系

~训练Q网络的tips

Q网络的训练过程

观察上图,可知在迭代过程中会有两个相同的网络,会进行两次参数的调整,该过程会使模型训练过程不稳定,处理方法是对其中一个网络进行参数固定,训练另一个网络。


使用replay buffer

2) Policy-based

~谁来判断下一步的动作?

learning a actor,Actor用来做Action,可以是一个NN,输出做不同动作的概率

~如何定义Actor的好坏?

将每个episode的total reward(记为R)作为真实标签(即使是相同参数的Actor,不同的eposide也会有不一样的total reward,因为NN输出的是概率)

使用期望值R'作为评价模型的指标,R'的定义如下:计算该参属下所有{a,r}的序列,求出期望值,但通常由于序列太多,采用跑N次取平均的采样方式。

NN的评价标准(Rθ相当于Loss)


梯度下降过程


求ΔlogP(t|θ)


最终表达

此时,如果最终的reward是正的,则会朝着在增加概率的方向优化。

3. 缺点

1) reward delay

2) 不会轻易尝试之前没有尝试过的action

二、On-policy vs Off-policy

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。