在没有人类知识的情况下掌握围棋游戏
摘要:
人工智能的一个长久以来的目标就是得到一个算法,这个算法能在具有挑战的领域,从白板状态,习得超出常人的熟练程度。最近,AlphaGo成为第一个在围棋游戏中战胜世界冠军的程序。在AlphaGo中的树搜索使用深度神经网络来评估位置以及选定的走子(走一步棋)。这些神经网络通过人类专家的走子进行监督学习,并且通过自我对弈的方式强化学习。这里我们介绍一种仅依赖于强化学习,不需要除了游戏规则之外的人类数据,指导以及领域知识的程序。AlphaGo成为它自己的老师:一个神经网络被训练用来预测AlphaGo自己的走子选择,也预测AlphaGo的游戏的胜利者。这个神经网络提升了树搜索的能力,使得其在下一次迭代中,获得了更高质量的走子选择和更强的自我对弈。从一个白板开始,我们的新程序AlphaGo Zero获得了超出常人的表现,并以100-0战胜了之前发布的,战胜世界冠军的AlphaGo
Mastering the game of Go without human knowledge
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 10月19日,deepmind在Nature杂志上发表了重磅文章《Mastering the Game of Go...
- Mastering the game of Go without human knowledge authors:...
- 本文系《文工团》约稿,禁止一切形式的未授权转载,谢谢合作。这篇是约稿的第二版,第一版可以点这里。 围棋,是一项中国...
- 来源:TalkingData furion推荐 参考:Nature;DeepMind;新智元 【作者】叶杰生 De...