问题:AlphaGo中的Monte-Carlo tree search是什么原理?
nature的《Mastering the Game of Go with Deep Neural Networks and Tree Search》 原文对蒙特卡洛查找树(Monte-Carlo tree search)的描述:
Without any lookahead search, the neural networks play Go at the level of state-of-the-art Monte-Carlo tree search programs that simulate thousands of random games of self-play.
我举个例子来侧面描述一下这个逻辑:
假设现在有个不规则形状A,怎么统计这个形状A的面积呢?
我用一个圆圈B住这个A,然后在B上面疯狂的随机打点,打上一万个。然后看有x个点落在了A上。那么A约值B*(x/10000)。
所以下棋逻辑差不多:
任意给定一个棋盘,我不知道这个棋盘上剩余哪个子一定能赢,但是我知道概率啊。
于是在y1这个落子上我接着下了一万局(先看别人怎么玩,再自己左右手互搏着玩),统计一下胜利了x1次,于是y1子上赢面是x1/10000。以此类推,y2上的概率是x2/10000...好像yn赢面很大啊,我下yn吧。
所以,虽然我不能穷尽所有可能性,但是每次我落的那个棋子都“可能”是最有机会赢的。
什么是棋感?就是全盘看下来,好像这样落子赢面更大一点。
一步算一步的这么下着下着,咦,我怎么就赢了。
系列目录:http://www.jianshu.com/p/efd0d0b90ddf
字典汇总:http://www.jianshu.com/p/6ff2604bbe6b
See you:)