蒙特卡洛树搜索 - 以蛮力对抗智慧

蒙特卡洛树搜索(Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是计算机围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

决策函数

比如围棋,棋手需要针对盘面的情况,选择下一步走哪个位置。这个决策过程可以认为是一个决策函数
a = f(s),即面对可能的状态s决策函数f 会提供一个行动a(落子位置)。当然,我们希望 f 尽可能优秀,其决策a能够尽可能赢棋。

决策树

我们也可以将f构造为一颗决策树。从盘面初始状态开始(没有棋子),令初始状态为根节点,第一手棋有19*19=361个位置,因此根节点下面有361个子节点,第二手棋有360个可能的位置,即361个节点下,每个节点又有360个子节点......随着双方的落子,树的分枝越来越多,每个分支最终会进入叶子状态(对局结束,黑胜或白胜)。理论上可以列举所有可能的情况,做一棵完整的决策树,但实际上这个数据量大到不可能实现。因此,我们必须在有限的时间和空间之内,高效的构建一个子树,这是一个不完整但尽量好的决策树

启发

即便只是尽量好的决策,也是很困难的。因为一步棋的好坏通常不能立即判断出来,最终的评判要到下完的时候才能决定谁赢,况且即便赢了棋,也不代表其中每一步都是好的。

但是,无论怎样,必须提供某种方法让AI知道一步棋好不好,也就是要提供一些 启发,于是我们可以采用蒙特卡洛树搜索方法。

蒙特卡洛方法

刚才我们说到下一盘棋不能判定其中走法的好坏,但如果下很多次呢?比如在某个特定盘面s1情况下,进行n次对局(接着s1盘面往后走),如果统计下来黑棋赢得多,说明s1情况对黑棋比较有利。这就是蒙特卡洛方法的思想,用大量随机事件逼近真实情况。

蒙特卡洛树搜索

虽然通过蒙特卡罗方法可以近似估计一个状态的好坏,但我们依然无法对太多状态进行估算。因此,我们需要有选择的集中力量对决策树中的可能更有价值的那些节点进行估算。这就需要使用蒙特卡洛树搜索,它提供了一种选择机制,使我们能够尽量选择决策树中比较有潜力的节点进行蒙特卡洛模拟,从而使得树可以尽量集中在“较好”的策略上进行“生长”。

蒙特卡洛树搜索有四个主要步骤:

1)选择(Selection)

从根节点R开始,选择连续的子节点向下至叶子节点L。让决策树向最优的方向扩展,这是蒙特卡洛树搜索的精要所在。也就是要选择一个尽量”有潜力“的树节点,那么怎样的节点是有潜力呢?一个是胜率高,另一个是被考察的次数少
胜率高的节点(状态)意味着最后赢棋的概率较大,当然应该多花些精力分析其后续走法。被考察次数少的节点意味着该节点(状态)尚未经过充分研究,有成为黑马的可能。

. 胜率高 胜率低
考察多 次优先 希望不大
考察少 优先 次优先

具体来说,通常用UCB1(Upper Confidence Bound,上置信区间)公式来计算一个节点的”潜力“:


image

wi:第 i 次移动后取胜的次数
ni:第 i 次移动后仿真的次数
c:探索参数/权衡参数,理论上等于 根号2,在实际中通常可凭经验选择
t:仿真总次数,等于所有 ni 的和

看一个例子(参考 28 天自制你的 AlphaGo(五)

image

上图中每个节点代表一个局面。而 A/B 代表这个节点被访问 B 次,黑棋胜利了 A 次。例如一开始的根节点是 12/21,代表总共模拟了 21 次,黑棋胜利了 12 次。

图中展示了蒙特卡洛树搜索的四个步骤,我们先看左边第一个树(Selection)。假设根节点是轮到黑棋走。那么我们首先需要在 7/10、5/8、0/3 之间选择,采用上面的UCB1公式:

image

假设 C 比较小(比如C=1),上述3个分数为 1.25 1.245 1,于是我们选择 7/10 节点(它得分1.25是最高的)。然后接下来 7/10 下面的 2/4 和 5/6 之间选择。注意,由于现在是白棋走,需要把胜率估计倒过来。即图上黑棋胜率是 2/4 和 5/6,则白棋胜率是 (1 - 2/4) 和 (1 - 5/6):

image

那么白棋应该选 2/4 节点。(图中扩展的是 5/6 节点,这不是很合理)。

2. 扩展(Expansion)

在所选的叶子节点L,如果已经能判定输赢,则该轮游戏结束,否则创建一个或多个子节点并选取其中一个节点C。

看上图第2个树(Expansion),假设黑棋选择了(当前的)叶子节点 3/3,然后创建了一个子节点,初始状态 0/0。

3. 仿真(Simulation)

从节点C开始,用随机策略进行游戏,直到分出输赢(获得一次准确的回报)。这一步骤又称为playout或者rollout。

虽然原则上蒙特卡洛方法是采用随机策略,不过实际中也可以采用一些“有经验”的策略,或者两者的结合。所谓有经验的策略就像一个有一定水平的棋手,ta 可以下出一些比较好的走法。我们可以在仿真的某个阶段采用棋手的走法,另外一些阶段采用随机走法。
不过总的来说,仿真需要很快速的完成,这样才能得到尽量多的仿真结果,使统计结果逼近真实的胜率。

看上图第3个树(Simulation),黑棋从 0/0 节点开始进行模拟游戏直到终局,假设黑棋输,所以得分是 0/1。

4. 反向传播(Backpropagation)

使用随机游戏的结果,更新从C到R的路径上的节点信息。

看上图第4个树(Backpropagation),从 0/0 节点开始遍历父节点,直到根节点R,这条路径上的每个节点都添加一个 0/1。

使用蒙特卡洛树做决策

当构建了一棵蒙特卡洛树以后,需要用它来做决策时,应该选择访问量最大的节点,而不是胜率最高的节点,也不是UCB分数最高的节点。

访问量不够大的节点,即使胜率高,也不够可靠(因为模拟次数不够多)。而访问量最大的节点,通常也有一定的胜率,想想UCB公式,如果胜率不高是不会经常被选中的(访问量不会大)。所以采用访问量最大的节点,AI的表现会更加稳定。

AlphaGO

对于围棋AI,仅使用蒙特卡洛树搜索是不够的,尤其是 AlphaGO 这样的顶级AI,更多分析请参考:
左右互搏,青出于蓝而胜于蓝?阿尔法狗原理解析

参考

28 天自制你的 AlphaGo(五)
AlphaGo背后的力量:蒙特卡洛树搜索入门指南
蒙特卡洛树搜索(MCTS)算法
维基百科——蒙特卡洛树搜索
维基百科——蒙特卡罗方法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容