其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization)(一)算法原理还是比较接近的, 其实主要是增加了多 Worker 异步训练下面给出视频讲解链接:
不愧是顶会收割机!迪哥精讲强化学习4大主流算法:PPO、Q-learning、DQN、A3C 50集入门到精通!
一、 AC算法
1.1 AC原理
代价函数:
奖励函数 :
引入 baseline,
并用
来估计
值, 即
, 这里的 V 可以理解为老师认为你能考 100 分, 但是你只考了 80 分(Q)
DQN中的 Q 矩阵:
现在替换上面的
根据上述结果我们可以得到优势函数: , 将上述两个网络
变为一个网络->
1.2 AC 整体流程
- 获取数据:
(不断与环境交互, 通过策略
)
- 前向传播计算:
- 计算梯度:
- 更新参数:
下面就是用不同的 agent 多个线程在独立环境去做游戏,分别对大脑进行参数更新,但之后更新大脑一定次数之后, 大脑再将权重再分配给不同的 agent
1.3 A3C整体架构


1.4 A3C损失函数整理
-
策略损失(Policy):
(起决策的网络)
-
Value 网络损失:
(预期与实际的差异)
-
熵
(熵越大表示各种行为的可能性都能有一些, 别太绝对)
-
整体损失函数:

