围棋机器人——AlphaGo
AlphaGo其实是有两个“大脑”组成的,也就是两套完整的深度学习网络来进行配合计算的。
第一大脑:落子选择器(move picker)。
AlphaGo的第一个神经网络大脑是“监督学习的策略网络”,观察棋盘布局企图找到最佳的下一步。事实上,它所基于的理论仍旧是遍历一棵树。它预测每一个符合规则的下一步的最佳概率,或者说是每一步落子后获胜的概率,然后选择其中一个获胜概率最高的位置落子。这可以理解成落子选择器。
第二大脑:棋局评估器(position evaluator)。
AlphaGo的第二个大脑棋局评估器是在做另外一件事情。它可以用来评价一个盘面的好坏程度,所以这种所谓的棋局评估器就是价值网络,通过整体局面判断来辅助落子选择器。这个判断仅仅是个大概的价值评估,但对于盘面的阅读速度提高很有帮助。通过分析潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读,也就是多看几步棋。如果棋局评估器说这个特殊盘面的变种不行,那么AI就跳过阅读在这一条线上的任何更多落子,从而加快盘面阅读的速度。