AlphaGo策略网络是基于强化学习的深度神经网络来构建的算法模型,这个过程是怎么抽象实现的呢?
感谢Go Further在githup提供的学习资料,为了方便学习思考,下面内容有摘抄。
围棋问题抽象构造:
插播下策略网络形成过程:通过查看2016年发表的《Mastering the game of Go with deep neural networks and tree search》论文,发现策略网络的演变过程,请看下面原文:
We begin by training a supervised learning (SL) policy network pσ directly from expert human moves.
This provides fast, efficient learning updates with immediate feedback and high-quality gradients. Similar to prior work13,15, we also train a fast policy pπ that can rapidly sample actions during rollouts. Next, we
train a reinforcement learning (RL) policy network pρ that improves the SL policy network by optimizing the final outcome of games of selfplay.This adjusts the policy towards the correct goal of winning games,
rather than maximizing predictive accuracy. Finally, we train a value network vθ that predicts the winner of games played by the RL policynetwork against itself. Our program AlphaGo efficiently combines the policy and value networks with MCTS.
从文中可以看到策略网络一开始是监督学习模式,之后演化为强化学习模式;在策略模型初始阶段是通过人类棋手大量的历史经验学习最佳下棋策略,当掌握人类棋盘高手方法后,调整学习策略为自我对弈,从原来模拟人类下棋方式的准确性调整为使用什么下棋策略如何赢得胜利,类似于从模仿提升到研究新棋法。
接下来研究策略网络是怎么抽象下围棋过程的:棋盘 19 * 19 = 361 个交叉点可供落子,每个点三种状态,白(用1表示),黑(用-1表示),无子(用0表示),用s描述此时棋盘的状态,即棋盘的状态向量记为s(state首字母)。
假设状态s下,暂不考虑不能落子的情况, 那么下一步可走的位置空间也是361个。将下一步的落子行动也用一个361维的向量来表示,记为a(action首字母)。
公式1.2 假设其中1在向量中位置为39,则a表示在棋盘(3,1)位置落白子,3为横坐标,1为列坐标。
有以上定义,我们就把围棋问题转化如下:
任意给定一个状态s,寻找最优的应对策略s ,最终可以获得棋盘上的最大地盘。
看到s ,脑海中就是一个棋盘,上面有很多黑白子。
看到a,脑海中就想象一个人潇洒的落子。