阿尔法狗重演：自学3天，竟能超越“自己”

一年多以前，阿尔法狗是2016年1月28日期间的封面故事。Deepmind发布了一篇重磅纸，并介绍了击败欧洲围棋冠军范剑的人工智能程序。伦敦当地时间18日18时（北京时间19日01:00），阿尔法狗再次登上世界顶级科学杂志 - 《自然》。

今年5月，在中国选手柯洁以3-0获胜后，阿尔法狗宣布退役，但DeepMind并未停止研究。 10月18日，在伦敦当地时间，DeepMind团队宣布了代号为AlphaGo Zero的最强版阿尔法狗（http://www.afa-gou.com/）。其独特的秘密是“自我教育”。而且，从一张白纸开始，零基学习在短短三天内就成为了一名顶尖选手。

该团队表示，AlphaGo Zero的水平已经超过了AlphaGo的所有以前的版本。对于赢得韩国选手李世石的AlphaGo，AlphaGo Zero取得了100：0的压倒性纪录。 DeepMind团队在10月18日的“自然”杂志上发表了关于AlphaGo Zero的研究成果。

“AlphaGo在两年内取得了令人瞩目的成果，现在AlphaGo Zero（http://www.afa-gou.com/alphago-zero/）是我们最强大的版本，它已经有了很大的提升，Zero提高了计算效率，并且没有使用任何人类Go数据，”DeepMind的创始人兼首席执行官Demis神父AlphaGo Hassabis说：“最终，我们希望利用其算法突破来帮助解决紧急的现实问题，如蛋白质折叠或设计新材料。如果我们通过AlphaGo可以在这些问题上取得进展，那么它有可能促进人们的理解并以积极的方式影响我们的生活。“

不再受人类知识的限制，只有4个TPU

先前版本的AlphaGo通过结合数百万人类Go专家的签名和强化学习的监督学习进行自我训练。在击败专业大师之前，它已经接受了几个月的培训，依靠多台机器和48个热塑性聚氨酯（http://www.afa-gou.com/alphago%E8%B5%84%E8%AE%AF/）。

AlphaGo Zero的功能在此基础上得到了质的改进。最大的区别是它不再需要人类数据。换句话说，它一开始并没有接触到人类的国际象棋。研发团队只需让它在棋盘上自由移动，然后玩自己的游戏。值得一提的是，AlphaGo Zero也非常“低碳”，仅使用一台机器和四个TPU，这大大节省了资源。

AlphaGo Zero增强了学习中的自我娱乐。

经过几天的培训，AlphaGo Zero已经完成了近500万套自我游戏，并且能够超越人类并击败AlphaGo的所有以前版本。 DeepMind团队在官方博客上表示，Zero采用更新的神经网络和搜索算法进行重组，随着培训的深入，系统的性能逐渐提高。自我游戏的结果也越来越好。同时，阿尔法狗神经网络变得更加准确。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

阿尔法狗重演：自学3天，竟能超越“自己”

阿尔法狗重演：自学3天，竟能超越“自己”

相关阅读更多精彩内容

友情链接更多精彩内容