alphago zero初探(二)

        上篇文章对围棋AI的演进做了一个简单的说明,这篇文章介绍下alphago zero在棋力上的取得的突破性进展原因。

        在Alphago zero论文中,用ELO Rating来评估围棋AI的水平。ELO Rating是应用于对抗类竞技项目中评测选手相对水平的方法,ELO Rating分数相等的两名选手,获胜预测概率都是50%。如果一个选手A比另一个选手B的ELO Rating分数高100,则A选手的预测获胜概率为67%。Alphago各版本ELO Rating分数如下图所示。

Alphago历史版本分数

        DeepMind团队最先开发的Alphago版本是Alphago Fan,也就是2015年击败欧洲冠军樊辉(樊辉是职业二段水平)的版本。Alphago Lee是2016年3月4比1击败李世石的版本,在此之后,DeepMind团队研发了Alphago master在2017年1月线上比赛60比0横扫全世界最顶尖的职业围棋选手。Alphago Zero 100比0胜Alphago Lee,89比11胜Alphago master

        媒体报道中的Alphago zero,最引人关注的莫过于Alphago zero能够不需要是人类棋谱进行学习,做到无师自通。这一点其实容易被带偏,对于Alphago zero的学习来讲,并非不需要棋谱,只不过棋谱可以通过MCTS框架,由Alphago zero的自我对弈模拟产生,作为学习的样本,来替换之前版本中的人类棋谱。个人认为Alphago zero棋力能够不断提升的关键在于,MCTS搜索框架巧妙的融合随机模拟步骤,能够探索之前没有下过的棋,自我对弈产生的棋谱能比之前更好,进而能够不断提升棋力。随机模拟产生棋谱并非是Alphago zero的首创,但是DeepMind团队做出了关键性改进。

强化学习与监督学习效果对比

        上图中蓝色曲线代表自我对弈学习(强化学习),红色曲线表示从人类棋谱进行学习。可以看出,Alphago zero从零开始学习,只需要30多个小时就超越了击败了李世石的alphgo 版本,但是只从人类棋谱进行学习的算法确始终无法超越击败李世石的版本,从这点上看,人类的经验确实成为了Alphago 提升棋力的瓶颈,这也是alphago zero最广受关注的一点。

        任何一个问题只要能转化为可计算的逻辑,理论上讲计算机都会做的比人好(比如五子棋、国际象棋以及现在的围棋),实际中能不能实现,要看计算力能满足求解需要。围棋状态如此复杂,以当前的计算机结构和计算能力,如果暴力求解显然不可行,因此解决问题需要找到更高效的计算逻辑,也就是新的算法,Alphago zero的算法就是围棋AI乃至人类AI的一个里程碑。由此也可看到,算法是推动AI前进的源动力,这也是最近网上广为流传的一个观点。当然也不能忽视计算力和数据的支撑性作用,实际上要想做好AI,算法、数据、计算力缺一不可。

        AlphaGo系统中的两个关键组件,价值网络与策略网络。针对当前棋面,策略网络用来预测每一个可选位置落子的概率,估值网络用来评估最终获胜的概率。在Alphago Lee及之前的版本中,策略网络与价值网络分别是两个不同的网络,需要分别进行训练。Alphago Zero中将价值网络与策略网络融合在了一个神经网络,同时Alphago zero将之前的卷积网络结构替换成了残差网络结构,下面将对网络结构改进进行分析。

网络结构改进分析

        上图中dual-res表示价值网络与策略网络共享一个网络,网络结构采用残差网络;sep-res表示价值网络与策略网络分别用一个神经网络,网络结构采用残差网络;dual-conv表示价值网络与策略网络共享一个网络,网络结构采用卷积网络;sep-conv表示价值网络与策略网络分别用一个神经网络,网络结构采用卷积网络。

        从图a可以看出来,网络结构由卷积网络替换为残差网络后,分数提高了600以上,可见残差网络在威力之大。值得一提的是,残差网络是中国人在深度学习研究的代表性工作,也获得了2016CVPR最佳论文奖(CVPR是人工智能中计算机视觉领域国际顶级会议)。将价值网络和策略网络合并后,对走子策略预测精度有所下降,但提升了对最后下棋结果的预测精度,分数提升了600多。将网络进行融合后,可以提升计算效率,更重要的是用一个网络来处理多个任务,系统设计变得更简洁。

        总结起来看,Alphago zero主要创新有两点:(1)提出了一种新的强化学习算法,无需人类棋谱,可以自我对弈产生棋谱进行学习;(2)提出一种新的评估网络,能同时进行策略评估和价值评估,且不需要人工设计特征。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容