击败职业棋手的阿尔法狗

先说一下,个人还是觉得论写东西记录的话,对比为知笔记等,在手机端写马克糖还是用简书爱屁屁最爽快呀~~
这广告是不是太生硬了……


最近的一个热点消息,恐怕就是人工智能AlphaGo击败了欧洲职业围棋冠军——当然这事发生在去年十月而不是最近,另一方面非死不可跳出来说其实它们早就达成这项成就了只是一直没公布罢了。

虽然击败的只是不算顶尖的欧洲冠军,远不像以前国际象棋深蓝击败的是世界冠军,但由于是在这个大家普遍认为现在的电脑无能为力的能够彰显人的智力的强大的围棋领域,所以这事的意义瞬间就不同了。

有一种凡间的蛮族无理踏入天堂的神之领域的冒犯与不敬。

虽然我也不知道人类究竟从哪来的这种自傲,或许是在宣布上帝已死的时候顺手就把扒下的神性给套在了自己身上了吧。

于是,正在北上的火车上颠簸的我打算略微写几句——当然就这个领域来说我彻底是门外汉,就和以前跑去神经所的朋友们里听脑神经与量子效应的可能关系时一样。


阿尔法狗所采用的,是深度卷积神经网络(DCNN)与蒙特卡洛决策树(MCTS)这两套方案。

我对这两个领域完全不熟,勉强说了解的话,就是以前凭着个人兴趣看过CNN与蒙特卡洛方法,所以只能从这两个近亲来谈谈。

所谓CNN,简单来说,个人认为是基于两大基本假设的主要用于图形识别的多层神经网络算法,而这两个假设则是:

  1. 与每个点信息相关的只有一定范围的邻点,而不是整个数据集中的所有点;
  2. 每个点上的参数是共享的。

这样的假设,翻译成人话就是:

  1. 单个点的行为是被局部影响的;
  2. 整个空间遵循统一套规则。

这样的假定对于特定类型问题当然是合理的,比如CNN本来所用于的图形识别,对于单张图来说,色彩或者线条总是局部起作用的,然后局部组成整体的构图与意向,这样的假定不会偏离实际太多——当然如果我们在已知这点后故意去误导,那当然可以骗过CNN了,比如此前有人专门设计一套遗传算法用来欺骗特定的机器学习神经网络,算是以毒攻毒。

对于围棋,或者象棋等一大类棋类游戏来说,每个棋的作用与影响,当然是局部发挥的,然后可以通过多层CNN逐渐外推,直至全盘。

而棋盘上的规则,不单下棋规则,棋子发挥影响的规则,也是全局统一的,所以用CNN来处理这种规则下的游戏,当然是没问题的。

这点反过来说,如果棋子的作用与影响,棋子的重要性,是随时而变的,也是不同位置不同的,且这种不同不存在某种确定的元规则或者元规则的元规则,那CNN应该就基本无效了——但这两个假设至少对人类所能接受的游戏来说,已经是足够强了。

让我们再换一个角度。

CNN的本质,就是通过分析局部信息之间的关联,一层层抽象出假定中的全局规律或者说全局信息,是一个不断抽象的过程。

这点就本质来说,与人的行为方式是很像的——人也是一步步抽象一个具体问题,直到最后获得一个关于这一类问题的一般规律为止。

这点在人类迄今为止的最高成就自然科学与技术方面,可谓体现得淋漓尽致。

因此,虽然CNN最后分析出来的网络参数对于人来说不可读,但其行为模式在概念上是相近的,甚至可以说是相同的——何况了,你就是知道了我每个脑细胞是如何与别的脑细胞相连的,也不见得就知道了我的所有想法与思考过程,这方面不能因为手段的具体物理形式的不同而非议。

因此,如果将CNN与人的行为做类比,那CNN就是通过查阅浏览千万张棋谱后,自己学习总结规律,来获得关于围棋如何获胜的知识。

这里我们不清楚的有这么几点:

首先,这种学习所学到的,是上乘的围棋获胜之道,还是下乘的千万局对战的局部手劲记忆?后者的话不过就是打谱打熟了,怕是难以更进一步——当然了,上万上百万张谱都打熟,也是不容易。

其次,如果将这套系统在初始状态下,与一个人类小孩一起,看相同数量的谱,那么谁赢?这个问题承袭前问,如果阿尔法狗只是打谱超级多所以熟能生巧,那也谈不上聪明,不过就是用超级的勤奋弥补智商的不足罢了。

第三点,这套系统能分辨围棋获胜棋路和具体棋手的棋风么?这个感觉是两个不同抽象层次的东西。

第四,它会形成自己的棋风么?

第五点,它能否通过学习局部手劲来加速学习?这点其实是类比我自己以前没事打算学围棋的经历:先学规则,然后是手劲与定势,再来是布局,最后实战——当然,懒惰如我也就停留在布局了……机器人是否可能通过同样的学习道路,而不起现在这种直接上大招的方式,来加速学习?这个问题深入一点,就是独立多次对局部的学习是否可能融汇到一个更大的整体的学习过程中。这大约是现在看来人与机器在学习上的最大不同了。

这几个问题,大约需要专业人士来回答了,比如我们简书的小虎Neil。

说完CNN,下面说下蒙特卡洛:MC。

第一次接触MC是在计算物理课上。这套方法很容易让人想到莎士比亚的猴子。

它的本质,就是面对一个无法分解无从下手的问题是,设计一套随机运动,该随机运动中某些情况出现的先验概率,与原本那个问题被解决时的结果之间,可以存在对应关系。

从而,那个随机运动可以通过计算机随机模拟来暴力解决,于是原本无从下手的问题便能获得解决。

有点无耻……意思就是我不跟你打,我打你影子,然后打死你……

感觉归感觉,事实当然没那么销魂。

比如说,最经典的案例,就是计算圆周率,过程就是取一个2×2的正方形,然后随机掉点,点距离正方形中心距离在1之内的就记录下来,最后总落点数与记录下来的点数的比,就会收敛于四分之派。

蒙特卡洛方法的核心,在于给出一个随机过程与原本问题相关,从而解决一个简单的就能解决原本困难的。

这个思路弦论学家大概会很熟,著名的全息原理、AdS/CFT在本质上就是这个意思:难解的引力问题不好解?得,对偶到高维场论,那里的问题好解,解完再对应回来~

对于这次阿尔法狗的蒙特卡洛决策树,以及早前的Alpha-Beta决策树剪裁,我不懂,没法说,但从有限的介绍看来,应该是对于决策空间的所有可能决策所对应的最优手问题,关联到某个决策空间中的随机运动,然后通过相对少很多的随机选择来尽可能覆盖到最优手,从而通过这个随机过程来解决问题。

就个人理解来说,它大约是这么个过程:

对所有可能的选择做一个筛选,然后再剩下的大量选择中随机选择几个进行分析,接着通过这随机几手的选择的结果来分析更好的筛选,直到某个程度后选出一个最优手。

不是通过全局尝试,而是通过少数随机尝试来不断缩小范围,最后找出一个最可能的好选择。

某种程度来说,人有时也是这么思考与解决问题的:当选择太多的时候,我们不可能把所有可能都想清楚,而是尝试几个有特点的或者随机的可能,然后进一步缩小选择范围。

这里,由于不专业,所以不清楚两者的相似度到底多大,但可以肯定的是,MCTS结合DCNN的话,至少“看起来”是一个利用学到的知识或者说经验来缩小选择范围的过程,这点的确是我们人经常做的事。

因此,这次阿尔法狗的DCNN+MCTS,前者用于学习,后者用于决断,看起来是一种很好的组合。

其工作原理,便是通过分析大量的棋谱来抽象出围棋背后的规律性的东西,再在决策过程中利用这些知识不断对可选步骤做出筛选,通过随机尝试来分析最可能的下一手,并最终完成“思考”。

这一过程与人是相似与接近的,所以说是在“智慧地思考”,大概也不能说断无可能。

而这个过程与以往比如击败国际象棋世界冠军的深蓝相比,最大的不同在于深蓝所用的如果我没记错的话,更类似于对所有对一大类对手可能使用的结果及其应对的暴力穷举,而这点在这里一方面完全做不到,另一方面也太原始。这里可以说是一个模拟学习与思考的过程,虽然算力依然很重要,但远不是暴力穷举那么简单粗暴地只靠算力。

这里个人有所疑惑的,就是前面所说的,分解后的局部学习是否可以融汇成整体性的学习?以及它到底学到的是什么?

后者比较形而上了……

还有一点,和学习的分解相同,作为决策的部分是否也可以将目标进行分解?将赢棋这个最终大目标分解为一系列的小目标,比如取势,取实地,然后最后才是获胜。

有人说阿尔法狗前段下得没有后段好,是否也有可能就是因为目标一直都是赢棋从而前期算力不够呢?那么分解出前期目标后是否就能解决这个问题呢?

对比的一个接近中文房间式的质疑,就是即便这台机器真的在行为上与下围棋的人无异,它又是否真的学会了下棋呢?哪一堆网络结构真正在控制下棋呢?答案恐怕是没有,整个网络是一个完整的个体,这个个体在下棋,而不是它的某个局部。

而问一个个体到底是不是真的在下棋,等于在问李世石他是不是真的知道自己在下棋,有点无聊了。

而,对于人类来说,也不用太沮丧——这倒不是说因为阿尔法狗还没战胜李世石,而是,有一点不知道身为人类的你发现没有,整个DCNN+MCTS,模拟了学习与应对,但人或者说动物有一个很特殊的行为它并没有模拟,那就是创新。

阿尔法狗可以通过学习围棋来分析局面思考后手,但并没有那种根本性的创造力,以前目前个人没看到。因此,假如说,人们创造一种阿尔法狗所学过的几万张棋谱之外的全新的棋路,阿尔法狗是否还能判断成功了?

这就牵扯到CNN那段的第一问了:如果阿尔法狗是真的学会了什么是围棋,那么无论人如何创新棋路,围棋还是围棋,估计没戏。但如果阿尔法狗只是将万亿的手劲定势布局拿来用于分析预测,那估计吃瘪的是它。

以前DCNN+MCTS,不像有创造力的算法——当然对比我只是半吊子,不是专家,说不定其实已经有创造力了只是我还没理解。

最后扯一下量子计算机——

在MCTS的随机选择过程中,原则上可以用量子计算机来优化,而且可以做成一个只处理特定功能的量子计算模组,就好比谷歌的D-WAVE就只能做量子退火算法,原则上可以做一个专门只做MCTS的量子计算框架,那样估计会出一些更逆天的结果来。

所以,当谷歌的阿尔法狗遇上自家的帝波,会发生什么呢?

非死不可要迎头赶上啊!


本文遵守创作共享CC BY-NC-SA 4.0协议

通过本协议,您可以分享并修改本文内容,只要你遵守以下授权条款规定:姓名标示非商业性相同方式分享
具体内容请查阅上述协议声明。

本文禁止一切纸媒,即印刷于纸张之上的一切组织,包括但不限于转载、摘编的任何应用和衍生。网络平台如需转载必须与本人联系确认。


如果喜欢简书,想要下载简书App的话,轻戳这里~~
私人推荐订阅专题:《有意思的文章》《严肃码匠圈》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容