1 基本概念
State: 当前状态
Action: 要采取的动作
Policy: 当前状态s下,采取动作a的概率:
Reward: 奖励
state transsition: 状态转移,old state采取一个action后变成new state,具有随机性
Agent: 智能体,强化学习中要训练的主体
Environment: 环境,Agent与环境不断交互,选取最佳策略
Rewards and Returns:
-
Return: 现在和未来奖励总和(aka cumulative future reward),未来的奖励没有现在的奖励值钱,所以加个权重(discounted return)
Value Function:
-
Action-Value Function: Q(s, a),对未来的奖励求期望
-
State-Value Function: 对A求期望,可以告知当前的局势
Actions are random: 动作是随机的,随机性体现在:
States are random: 下一步的状态是随机的
2 Value-based learning
价值学习的目标是为了近似Q*函数,DQN是一种这样的方法
2.1 DQN(Deep Q Network)
Use neural network Q(s,a;w) to approximate Q*(s,a).
使用神经网络的方法去近似Q*函数
2.2 Temporal Difference (TD) learning
TD算法用来在算法为执行到底的前提下给出可能的结果,然后代入梯度下降更新神经网络的参数
3 Policy-based learning
3.1Policy Gradient
策略梯度是V函数对神经网络参数的导数
3.2 Two forms of policy gradient:
-
Form 1:
-
From 2: