记录下与AlphaGo相关的关键概念术语,逐步一个个把定义搞清楚。
围棋是什么:围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。其西方名称“go”,是源自日文“碁”的发音。对弈双方在棋盘网格的交叉点上交替放置黑色和白色的棋子。落子完毕后,棋子不能移动。对弈过程中围地吃子,以所围“地”的大小决定胜负。围棋规则简洁而优雅,但玩法却千变万化,欲精通其内涵需要大量的练习与钻研。国际象棋大师伊曼纽·拉斯克称赞说:“如果在宇宙中的其他地方存在智能生命形式,他们几乎肯定会下围棋。”与此同时,围棋被认为是目前世界上最复杂的棋盘游戏之一,其复杂度已于1978年被Robertson与Munro证明为PSPACE-hard(PSPACE是计算复杂度理论中能被确定型图灵机利用多项式空间解决的判定问题集合,是Polynomial SPACE的简称)。
围棋棋盘:围棋盘由19条横线19条竖线组成,棋子要下在线的交叉点上,方格中不能放入棋子。为了便于识别棋子的位置,棋盘上划了九个点,术语称做“星”,中央的星点又称为“天元”;下让子棋时所让之子要放在星上。棋盘可分为“角”、“边”以及“中腹”。而现今的棋盘则有19×19、13×13、9×9,较为普遍,另外还有一些是较罕见的15×15、17×17。
围棋棋子:围棋子分为黑白两色。棋子的数量应能确保顺利终局,中国规则和应氏规则要求正式比赛中黑、白各180子。棋子呈圆形。中国一般使用一面平、一面凸的棋子,日本则常用两面凸的棋子。中国云南所产的“云子”为历来的弈者所青睐,迄今已有五百余年的历史。较为珍贵的棋子材料有贝壳、玛瑙等。
围棋棋钟:正式的比赛中可以使用棋钟限制选手时间。非正式的对局中一般不使用棋钟。
围棋基本规则:
下棋时,对弈双方各执一种颜色的棋子,黑先白后(中国古代是白棋先下),轮流将一枚棋子放置于交叉点上。与棋子直线相连的空白交叉点叫做气。当这些气都被对方棋子占据后,该棋子就没有了“气”,要被从棋盘上提掉。如果棋子的相邻(仅上下左右)直线交叉点上有了同色的棋子,则这两个棋子被叫做相连的。任意多个棋子可以以此方式联成一体,连成一体的棋子的气的数目是所有组成这块棋的单个棋子气数之和。如果这些气都被异色棋子占领,这块棋子就要被一起提掉。在任何情况下,均禁止棋手向棋盘连下两子,否则将立刻判负。因此较文雅的中盘认输方法——投子,即是向棋盘摆下两枚棋子。
完全信息博弈游戏:是指每一参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息的博弈。例如:围棋。
非完全信息博弈游戏:在不完全信息博弈里,参与人并不完全清楚有关博弈的一些信息。例如:大多数纸牌游戏是不完全信息博弈。在桥牌里,你并不知道你对面伙伴手中的牌,也并不知道坐在左右两位对手手里的牌。你在作决策时,必须对其他三位手中的牌做一个估计,而没有确切的信息。
策略网络:走子概率的策略网络最初是通过监督学习来训练的,以准确地预测人类专家的走子,并随后通过策略梯度强化学习进行改进。
价值网络:输出局面评估的价值网络经过训练,可以预测策略网络与自己下棋的胜利者。一旦训练完成,这些网络与蒙特卡洛树搜索(MCTS)相结合,提供了一个前瞻性搜索,使用策略网络缩小高概率走子的搜索范围,并使用价值网络(与Monte-Carlo 使用快速展开策略rollout)来评估树中的局面。
卷积神经网络(convolutional neural networks,CNN)由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要估计的参数更少,使之成为一种颇具吸引力的深度学习结构。