AlphaGo阿尔法狗到底是如何战胜李世石的?

我对围棋一窍不通,过去也对AI-Game没有特别研究,拜近日来阿尔法狗(AlphaGo)重创人类在围棋上领先的地位之赐,特别把这篇《自然》上的论文(〈Mastering the game of Go with deep neuralnetworks and tree search〉)拿来看了一下。

李世石与阿尔法狗人机大战引发的热议

这是一篇非常有趣的论文,摘录心得如下:

1.阿尔法狗(AlphaGo)决策过程跟过去的棋类程序不大一样。它里面每一个stage单独的方法都是不是新的创见,只是它组合这些方法的框架很特别。它的学习结果,(不管是深度神经网络或是增强式学习)都只是中间产物,最后用来帮助搜寻最好的棋步。

2.    它的学习分三个阶段,第一个阶段天下棋手为我师,它主要希望建构一个13层的深度神经网络来学围棋专家的棋步,也就是根据这个盘面预测过去历史资料中大家会怎么下。第一阶段训练出来的SL系统就可以下棋,但是结果不是很好,因为其实就只是个模仿专家的系统。

3。而第二阶段超越过去的自己是一个增强式学习的系统,藉由跟过去的自己对战来增进第一阶段学到的棋步,而且需要跟过去不同版本的对手对战避免overfitting。在这个增强式学习的阶段,才首度把胜负当成reward来训练模型。第二阶段训练出来的棋步已经有85%的机会赢过过去已知最强的围棋程序(段数约二段)。

阿尔法狗的大脑构造!

4.    第三阶段我戏称为「机率算尽太聪明」。其宗旨在预估每个盘面的价值。所谓盘面的价值,就是从这个盘面开始,假设对手能够穷举所有可能的下法找到最佳解,AlphaGo的获胜机率有多高。当然我们无法知道无懈可击的对手会怎么下,所以退而求其次,AlphaGo模拟跟自己下的过程决定每个盘面的胜率有多少,然后用有限的盘面与胜率当成训练数据再去训练一个深度神经网络估计所有盘面的价值。在这个阶段还有一个招数,也就是这些当成训练资料不能用第一阶段数据库搜集的棋局盘面,因为同一局的盘面有高的相关性以及一样的奖励,会造成学习中的记忆效应,而是要用「与自己下棋」中每一局单独抽取的独立盘面来训练。

前三个阶段都是阿尔法狗(AlphaGo)的训练过程,这些都是offline可以做的。训练好的阿尔法狗(AlphaGo)已经可以赢过一般的对手。

5.    虽然训练好的第三阶段阿尔法狗(AlphaGo)可以仗剑大杀四方,但是还不足以赢过高段的对手。因为实战中的盘面有很大的机率是在训练中没有看过(围棋的盘面总数高达250的150次方之多),对于它们价值的预测其实不一定准。真正在实战中,AlphaGo采取「灵机应变,无招胜有招」的战术,不坚持使用之前学习到的棋步,反而利用过去学到的棋步结合了蒙地卡罗树状搜寻(MCTS)的方法找出最好棋步。也就是在实战中对现在盘面进行模拟下棋(再度假设对手就是自己),在模拟的过程中把所有经历的盘面重新计算它们的价值,在有限的思考时间内尽量进行模拟,最后选择模拟过程中最稳定的棋步(不是价值最高的棋步)。在这个过程中需要快速的运算,越多的仿真就会让盘面价值的计算越准,阿尔法狗(AlphaGo)利用平行化计算加上GPU达成高速运算的目的。

阿尔法狗训练过程的学习过程

6.    算法总结:阿尔法狗(AlphaGo)第一阶段的训练过程就像是把一个人关在房间里,不告诉他围棋是什么,也不告诉他围棋的规则,甚至连围棋最后怎么算胜负都不跟他说,只拿一大堆过去专家下棋的棋谱给他看。然后等它看完棋谱后,第二阶段就让他自己跟自己下棋,从中学习更好的下法,最后第三阶段它只要看到某个盘面就知道这个盘面的胜率,虽然从头到尾它还是不知道围棋的规则。

真正在下棋的时候,阿尔法狗(AlphaGo)还是沈浸在自己的世界里。每当对手下完一步,它就开始模拟接下来可能的数步(模拟的时候就是假设对手是自己,所以对手是谁对AlphaGo而言完全不重要,他也完全不去预测对手会怎么下),在模拟的过程中,它就重新对于未来可能面对棋局来估算胜率,最后选择最稳定最有可能获胜的棋步。它的风格就像是金庸笔下的独孤九剑,不拘于定式,而是当下根据对手的招式才决定最佳的进击策略。

7.阿尔法狗(AlphaGo)并没有针对对手的棋步训练系统,我不确定在他使用的数据里面有没有李世石的棋谱,不过就算是有,所占的比例也应该微乎其微。「自我学习」(与自己对战)才是AlphaGo的主轴。

8.    看起来AlphaGo所使用的所有招数跟方法是缺一不可,论文里面还有一些决策(decision)的细节并没有讲清楚,但是相信是尝试错误后决定的。

阿尔法狗到底离我们的生活还有多远?

后记:阿尔法狗(AlphaGo)的唯一目的是最后的胜利,所以在过程中它并不在乎下某一子的短期利益(会赢多少地盘),它甚至对于这些短期损益完全没有认知,在训练的过程中也不在乎赢几目。在与人类对决的时候,我们看到棋评会指出它犯了一个失误」,或是它不喜欢某种策略如打劫。其实如果了解AlphaGo的决策模式,就会知道他其实没有策略以及失误的概念,对它而言,棋类等游戏就是对于每个盘面精确且快速的估算其通往胜利的机率。

因为阿尔法狗(AlphaGo)在下棋的过程中会看到越来越多的盘面,所以它只会愈来愈进步。未来如果人类想从与其对奕中取得胜利,必须要能够走出前所未见的局面,降低它对于盘面估测的准确度才会有机会。这也不是完全不可能,因为围棋的复杂度太高。其实要更理解AlphaGo,必须要去研究它present每一个盘面所用的features,我因为不懂围棋,所以没有办法评论。但是理论上如果它遗漏了某个重要的特征,表示它无法利用这个信息判断盘面的价值,人类可以利用这个信息去进攻,尽量去创造某个比较不容易被已有的feature来表达的盘面。


公子义【微信号gongzi348】80后,90后心理研究专家,4年心理学,9年大数据研究者,专注于移动互联网,大数据究狂热爱好者,热爱写作。原创文章,未经许可,严禁转载,违者追究法律责任。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容