要说最近人工智能领域谁最火,Master肯定是当仁不让。在横扫中日韩顶尖围棋高手,豪取60连胜之后,神秘的Master终于于1月4号晚上亮明了身份,它就是AlphaGo。不过,这样的结果让人意外也让人不意外.
这样的改变来自哪里,与之前的AlphaGo相比,Master又有了哪些新的进步。
1月5号,DeepMind在回复澎湃新闻(www.thepaper.cn)的邮件时表示:“我们一直在改进AlphaGo,包括算法上的创新、通过左右互搏训练来学习。我们这次进行这些非正式的快棋比赛,为今年晚些时候的标准时长的正式比赛做准备。其实很多其他的智能围棋系统也会披着马甲在网上试水的。我们没料到会引发这么大的关注度,但是既然这么多棋手都表示挺感兴趣的,那我们想还是出来承认一下吧。”
在Master宣布自己身份后,DeepMind创始人监CEO德米斯·哈萨比斯(Demis Hassabis)也在其个人推特账号上表达了自己的激动心情。这份声明也从官方层面证明了Master的身份。
这位有着“天才”和“工作狂”之称的创始人,对于围棋有着浓厚的兴趣,13岁时获得了国际象棋大师的称号。1月3日,DeepMind发布的官方博文中透露,除了围棋,公司还在和英国的当地医疗机构合作,希望提供更好的医疗服务。同时,公司也在考虑挑战《星际争霸2》游戏。
在如此短的时间里,做出了如此惊人的成绩,这家2010年初创于英国伦敦的人工智能公司,究竟有着什么样的魔力?
Master强在哪里?
要知道Master变得有多强,得先从AlphaGo的算法说起。
《经济学人》曾发文对AlphaGo的算法进行解释,认为它得意的地方在于用新的方法,试着让电脑发展出如何下棋的直觉——能自己发现人类选手理解却无法解释的原则。它采用深度学习的技术,通过重复地复杂统计,让电脑从巨大的无用数据中提取出通用的原则。
深度学习需要两个东西:足够多的处理单元及足够多的可供学习的数据。DeepMind用了3000万棋谱样本来训练机器,这些棋谱来自业余和职业选手聚集下棋的在线服务器。另外AlphaGo还通过和自己对弈,进行微调,从而能快速产生更多的训练数据。
这些数据需要经过深度学习的两种算法处理。一是所谓的策略网络,用来训练模仿人类行为。看过数百万计的对局后,它已学会提取特征、原则和经验法则。它在对局中的工作就是观察棋盘的状态,并产生一些看起来更有希望的步数提供给第二个算法考虑。
第二个算法叫做价值网络,用来评估一个步数的致胜概率。机器会根据策略网络的建议,评估数以千计的走法。因为围棋如此复杂,所以将所有可能的走法都走完是不可能的。作为替代,价值网络会评估数个步数后可能的棋盘状态,并与它之前见过的例子进行比较。这种想法是找出统计意义上最像过去能够获胜的棋形。策略网络和价值网络结合起来构成了人类棋手需要通过几年实践才能累积的围棋智慧。
值得一提的是,韩国棋手李世石在与AlphaGo进行对决时,曾在第四局时赢过一盘。但这次Master直接取得了60连胜。
“目前DeepMind的具体改进还没公开,但我猜测经过了半年多训练,数据量提升了不少。另外,针对上回第四盘棋的弱点,估计在训练方法上也有改进,比如左右互搏,自己和自己下能增加数据量。” 第四方式创始人兼CEO戴文渊表示。
除此之外,比起AlphaGo,这次Master的下棋时长更短。这也被外界认为是提升之一。但有多位人工智能领域专家表示,其实快棋对于人工智能系统来说更有利,因为人在紧张时会犯更多错误。
Master这次的表现,让国内许多顶级的围棋高手感叹。世界冠军古力九段在输给Master后,在接受采访时称:“没看过它下慢棋,但进步肯定巨大,具体不知道该怎么衡量。原来觉得围棋招法有限,现在觉得下棋可以更加自由。”
“从上回的态势看,其实趋势上人类已经没有机会了。机器就像个怪兽,人未来可能可以侥幸戳到死穴赢一两盘。”戴文渊在回答关于人机对弈未来的意义时说。
对于DeepMind公司来说,新一年会继续对围棋项目进行深入,但在其1月3日发表的博文中,Deepmind称接下去会做的三件事:实现算法突破,提升社会影响,建立伦理规范。我们机器人2025也对此作了相应的报道。
“其实他们还想做医疗,但医疗的数据获取成本比围棋大太多了,完全是另一个问题。另外,实时对战游戏会更难,例如星际争霸,因为复杂度比围棋还大。”戴文渊说。
Master和AlphaGo背后的团队
无论是Master还是AlphaGo,它们的成功背后,都离不开DeepMind团队的努力。在外媒的描述中,创始人之一德米斯·哈萨比斯(Demis Hassabis)谦虚、认真,对自己目前的工作抱有“解决智能问题,随后利用这一技术去解决所有一切”的态度。
同时也能用天才来形容这位创始人。哈萨比斯,8岁时就编写了自己的计算机游戏,13岁时获得了国际象棋大师的称号,17岁时开发了首款引入人工智能元素的电子游戏《主题公园》并大获成功,20岁时在剑桥大学计算机科学系获得了两门学科优等成绩,拥有剑桥大学和伦敦大学学院的计算机科学和认知神经科学双学位。不久后创建了自己的电子游戏公司Elixir并完成了关于大脑海马体和情景记忆的前沿性学术研究。 2011年创立DeepMind,而在此之前,他在哈佛大学和麻省理工学院取得博士后。随后,公司在2014年被谷歌收购,直到人工智能项目AlphaGo,引发全球关注。
被谷歌收购后,DeepMind的总部依旧维持在英国伦敦。DeepMind在伦敦大约有140名成员,也是目前英国最有趣的科技公司之一。DeepMind优秀的人才队伍也可能是谷歌2014年愿意斥资4亿英镑收购的主要原因之一。
相信智能程序将能够帮助发掘出可以利用于社会福祉的新科学知识。在过去的几年发展中,他们与谷歌的数据中心团队运用了类似AlphaGo这样的技术发现了管理制冷系统的新方法,使建筑节能到达了15%。如果把这些技术应用在其他更大型的工业系统上,就会节省更多的能源开支从而保护生态环境。此外,DeepMind还在英国积极推进了与两家国家卫生署医院在深度学习科研方面的战略合作,去探索如何让科技更准确地诊断、治疗形形色色的疾病;并和另两家医院合作研发了用于临床的移动应用和基础设施,使病患得到更贴心的医疗护理。
“最终,我们想要将这些技术应用到真实世界的重要问题中。因为我们用的方法是通用的,我们希望有一天,它们能延伸得更广,帮助解决最紧迫的社会问题,从医药诊断到环境模型。”哈萨比斯说。
本文由机器人2025微信公号编辑部编辑整理,图文来自网络,喜欢的可以微信关注我们。