一年多以前,阿尔法狗是2016年1月28日期间的封面故事。Deepmind发布了一篇重磅纸,并介绍了击败欧洲围棋冠军范剑的人工智能程序。伦敦当地时间18日18时(北京时间19日01:00),阿尔法狗再次登上世界顶级科学杂志 - 《自然》。
今年5月,在中国选手柯洁以3-0获胜后,阿尔法狗宣布退役,但DeepMind并未停止研究。 10月18日,在伦敦当地时间,DeepMind团队宣布了代号为AlphaGo Zero的最强版阿尔法狗(http://www.afa-gou.com/)。其独特的秘密是“自我教育”。而且,从一张白纸开始,零基学习在短短三天内就成为了一名顶尖选手。
该团队表示,AlphaGo Zero的水平已经超过了AlphaGo的所有以前的版本。对于赢得韩国选手李世石的AlphaGo,AlphaGo Zero取得了100:0的压倒性纪录。 DeepMind团队在10月18日的“自然”杂志上发表了关于AlphaGo Zero的研究成果。
“AlphaGo在两年内取得了令人瞩目的成果,现在AlphaGo Zero(http://www.afa-gou.com/alphago-zero/)是我们最强大的版本,它已经有了很大的提升,Zero提高了计算效率,并且没有使用任何人类Go数据,”DeepMind的创始人兼首席执行官Demis神父AlphaGo Hassabis说:“最终,我们希望利用其算法突破来帮助解决紧急的现实问题,如蛋白质折叠或设计新材料。如果我们通过AlphaGo可以在这些问题上取得进展,那么它有可能促进人们的理解并以积极的方式影响我们的生活。“
不再受人类知识的限制,只有4个TPU
先前版本的AlphaGo通过结合数百万人类Go专家的签名和强化学习的监督学习进行自我训练。在击败专业大师之前,它已经接受了几个月的培训,依靠多台机器和48个热塑性聚氨酯(http://www.afa-gou.com/alphago%E8%B5%84%E8%AE%AF/)。
AlphaGo Zero的功能在此基础上得到了质的改进。最大的区别是它不再需要人类数据。换句话说,它一开始并没有接触到人类的国际象棋。研发团队只需让它在棋盘上自由移动,然后玩自己的游戏。值得一提的是,AlphaGo Zero也非常“低碳”,仅使用一台机器和四个TPU,这大大节省了资源。
AlphaGo Zero增强了学习中的自我娱乐。
经过几天的培训,AlphaGo Zero已经完成了近500万套自我游戏,并且能够超越人类并击败AlphaGo的所有以前版本。 DeepMind团队在官方博客上表示,Zero采用更新的神经网络和搜索算法进行重组,随着培训的深入,系统的性能逐渐提高。自我游戏的结果也越来越好。同时,阿尔法狗神经网络变得更加准确。