虎说八道AlphaGo Zero

前几天，人工智能领域又发生了一件大事，deepmind团队发布了AlphaGo的升级版本AlphaGo Zero，为什么说这是件大事？因为新版的AlphaGo是“自学成才”的，没有依靠大量的数据。PS：我个人认为这是个伪命题，准确来说应该是没有依靠大量的人类数据，而是运用了人类的智慧和计算能力自己产生了训练所需的数据。

DeepMind主要作者之一的黄士杰博士总结：AlphaGo Zero完全从零开始，初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识，例如打劫、征子、棋形、布局先下在角等等，都与人类的围棋观念一致。个人认为：黄士杰博士所谓的从零开始，一定是在AlphaGo Zero掌握了围棋的基本规则的基础上。如果连基本规则都不知道，那么AlphaGo

Zero在自己和自己下棋的过程中如何判断自己到底是输还是赢？

AlphaGo zero以100:0的成绩打败了AlphaGo。

AlphaGo Zero得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。

这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的AlphaGo Zero版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的AlphaGo Zero版本。

这几天看了很多关于AlphaGo Zero的评论，有些媒体夸大其词的说AlphaGo

Zero已经超越了人类的知识限度。这对于喜欢虎说八道的我来说，简直是莫大的侮辱，简直比我还能胡说八道。

AlphaGo Zero为什么可以获得如此能力？围棋是可以按照一定规则进行的游戏，在棋盘上只要是符合规则，围棋的随机性很高，对于人类和现在的计算机来说，这种随机性是遥不可及的。之前的AlphaGo是学习了很多高手的对局，在一定程度上，我们可以认为之前的AlphaGo是被我们灌输了一些特定了套路，技术上称之为“策略网络”。在通过“价值判断”函数进行判断获胜的概率，注意，这里的价值判断函数，是预测棋子落在每个位置游戏获胜的概率。

而AlphaGo Zero是将“策略网络”和“价值判断”是通过一种迭代方式进行完美的融合在一起了。它先自己跟自己下棋，不断优化属于自己的“策略网络”。这在技术上属于无监督学习，当然这个的前提是要教它围棋的规则或者称为标准，让它在标准里面随机产生对局棋盘，用于优化自己的“策略网络”及“价值判断”函数。

AlphaGo Zero这种完全不依赖于人类数据的创新是有其根本因素的，因为围棋的下法是有一定的规则的，只要是在规则之内AlphaGo Zero自己可以和自己模拟，创造新的下法。举例来说：一个学生学习了基础知识之后，可以利用这些基础知识解决一系列复杂的问题，但是这些复杂得多问题其实还是限制于这些基础知识不断组合上，一旦超出了基础知识的界限，那么学生就不会做题了，这也间接的解释了你曾经遇见的那些“特殊的学霸”——掌握了基础，不玩题海战术也比成绩好的原因。这也是当前版本的AlphaGo Zero的核心。但是，不得不承认的是，这种方式极大的释放了人工智能在围棋领域的创造性，人类可以从中获得更多。

AlphaGo Zero最大的特点也是有别于AlphaGo的是，它的策略网络是自主产生的，这样就可以不受人类下棋思维的限制，自己跟自己下棋，利用计算能力，尽可能的罗列出更多的可能，通过不断的学习，系统的性能才得以提高。对于一些模拟随机性要求很高的领域来说，AlphaGo

Zero的思想很重要。利用人工智能可以产生大量超出我们人类认知之外的可能，我个人觉得这才是AlphaGo

Zero最大的成功之处。

至于能不能成为人类新的智慧？

在某些具有一定可以结构化的领域，如蛋白质折叠，减少能源消耗或寻找革命性的新材料。AlphaGo Zero可以成为了一种解决问题的方式，因为人类自我认知的限制，在罗列随机性上一定比不上计算机。因为人类是有强烈的自我意志的，相比之下计算机没有，所以它的随机性更可靠。如果创造随机性属于智慧范畴，那么AlphaGo Zero绝对可以是人类的新智慧。我个人认为，随机性算得上智慧范畴，随机性就是不确定性，不确定性是上帝最好的创造，在一定意义上超越了智慧。

AlphaGo

Zero证明了在某些领域，人工智能可以不需要所谓大量数据（人的经验）就能实现智能化。这一点意义非凡，甚至会影响人工智能产业的发展方向。但是，如果深究其原理的话，人工智能还是需要大量数据来训练的，这并不矛盾，因为AlphaGo Zero训练所需的数据是自身产生的。

AlphaGo

Zero的技术核心纯强化学习，其实强化的是“基础”，有了坚定的基础，盖成一座大楼，只是时间的问题。这其实跟我们人类的思维是相通的，Deepmind团队也称，AlphaGo zero对结构化知识的领域更适用，其实与其说是结构化，不如说成是规则化。因为如果说结构化的话，那么文本翻译也属于结构化，但是在翻译领域没有标准化，它还是需要大量数据来支撑的。这也证明了AlphaGo Zero并非是完美的，它局限于某些领域。

后记：今天的AlphaGo Zero让我想起了，之前我想起了我以前的思考：物联网时代，每个物体都是智能的，它们可以数据，可以自我进化，然后为人类提供更好的服务。或许AlphaGo Zero让我这个想法更接近了现实。

��T�s��\

虎说八道AlphaGo Zero

推荐阅读更多精彩内容