难得小长假偷个闲,聊个略复杂但我挺感兴趣的话题。
新闻里说AlphaGo在战胜李世石后,下一个就将挑战电竞项目星际争霸2(以下简称SC2)。这事儿有几点比较有趣:1)这下代表人类智力与尊严的第二战居然又得由韩国人担当了;2)AI打星际是不是比下围棋更难?最近80后人都在议论,包括古力这样的九段棋手。我今天也想聊下这个问题。
为什么是80后最爱议论?也许太老的对星际没兴趣,太小的对围棋没兴趣。80后恰好处于现实世界与虚拟世界的gamer的交集。
言归正传,我觉得SC更难。并不是说SC比围棋难——单从逼格指数而言SC就没资格与古老的围棋相提并论。但对于AlphaGo要在SC上战胜人类,难度会远大于他在围棋碾压人类。
之所以热议,首先是因为AI具备用膝盖都能想到的一些巨大优势。SC这类RTS(即时战略型游戏),比拼的维度主要有三个:策略、运营和操作。而至少在运营和操作两方面,AI必然具有碾压人类的优势。
AI操作的优势毫无悬念。SC单方的人口上限为200,AI对于“百”数量级的单位做到每个都单独给出指令轻而易举。最优秀的人类选手凭借灵巧的手指与科学的编队所能做到的多线操作或所谓华丽“微操”实在相形见绌。
SC里所谓“运营”,总结起来就是怎样充分利用自己的资源,最大化地产出。其本质是运筹学,在略复杂的规则下做算术题:量化地掌握已控制的水晶与气矿的存量、开采速度和未来储量,各种建筑、兵种的建造时间和价格,各种部队的移动速度及与敌军基地间的距离等……然后做出最精确的计算,找出最佳方案,且精准地付诸执行。人类要和电脑比算术,换《最强大脑》的选手其结果也一样。
所幸在“运营”和“操作”层面,能达到人类巅峰的选手,与AI的能力纵然差距再大,但具体体现在游戏中的结果却没有那么明显。简单来说,AI能力纵然百万倍于人类,最终应用了最优方案;人类凭借残破的估算能力及过往经验,最终应用了次优方案,其效力可能也就相当于最优方案打了九五折。在单个事件中,AI实际百万倍的优势,在游戏中化作了个"+5%"。也许是+5%采矿速度,+5%出兵速度,+5%遭遇战时的攻击输出……也许以上皆有,但终究只是量变。
而“策略”层面——无论在虚拟游戏还是真实战争中,都是双方拉开质的差距的关键。人类的胜利希望自然也在此。那么上升到“策略”层面,AlphaGo有什么难以克服的难点?
1. AI玩SC,分析建模的难度远高于围棋。
这是AlphaGo的根本难题。是一个"step 0"般的存在。
对于围棋,如何将信息数据化并建立分析框架是伴随着规则产生就定下的,不存在这个"step 0"。AI下围棋的根本难题是不能理想化地计算。要在区区19x19棋盘+单一棋子的设定下,用穷举法去精确计算已然超越了运算能力极限,于是AI必须能够“判断”局势,剪除低概率的分支,在最大概率的几条分支上去做到对未来两合甚至二十合的计算。做到这一步“判断”已然是AI的巨大飞跃了。
但是AI玩SC的根本难题是压根不能理想化地建模。SC的地图(即棋盘)一般能有1024*1024,且有地形与海拔之分,且比赛地图不断更新;有上百种兵种,且各有不同的碰撞体积、移动方式/速度、视野、攻防类型/攻防力/攻击距离;数十种建筑/科技/兵种之间有复杂的建造条件限制,及不同的建造时间与造价,从而决定了每个单位都具备一个经济价值……最最复杂的是,它是即时发生而非回合制的。类似围棋中一个局部有气没气,哪方占优的判断,在SC中极难做到。因为取哪些数据指标来建立分析模型都需要极复杂的取舍。
类似半队T的枪兵与一队Z的小狗遭遇的极简单的局部小战斗,综合各种因素,要判断打不打、打哪个、打到什么份上可以撤等基本问题,若理想状态地建模情况下,就足够耗尽AI的运算能力了。但对人类而言,“条件反射”地即可做出反应。
AlphaGo的“痛苦”或许我们很难体会。现实中,我们数据建模的困难往往在于“数据化”——全世界97%的信息都以非结构化数据存在,即我知道这个因素很重要,但没法将其量化从而放到分析框架中,只好放弃。但一个电子游戏中的所有信息其实都以结构化的数据存在,却还是得取舍,且需舍弃绝大多数已知数据资源。舍弃本已握在手中的东西比舍弃本就不曾拥有的东西显然更“痛苦”。
2. 战争迷雾的存在,决定了SC是复杂的“不完全信息博弈”。
围棋双方所有已输出的信息,均是完全公开的,但SC的地图,只有己方单位的视野之内的范围才是可见的。这既大大增加了AI判断局势的难度,又为人类在策略层面玩出更多花样提供了极大的可能。
SC等RTS游戏极重要的环节就是“侦查”。了解此时此刻敌方出生地在哪,出什么兵种、升什么科技、开几处矿、屯兵何处等等,从而及时制定针对性的策略。该环节要求AI基于有限的侦查结果,来判断人类的真实意图。这对AI来说有两个终极问题。
“兵者,诡道也”。这一点上SC与古往今来的现实战争并无二致。各种沿用千年的经典战术——诱敌深入、声东击西、前后包夹、围魏救赵、半渡而击等等,在SC中同样也司空见惯。对AI来说,自己的进攻可以完全只靠运营和操作的优势来碾压,但对方人类要玩战术却无法控制,也不得不察。但要AI理解这些“战术”,无异于要求其学会“兵法”之奥义——莫说AlphaGo,对它背后谷歌那些IT直男工程师而言,可能都难得太终极了。
其次,“兵不厌诈”,AI要能适应人类的欺骗。你来侦查,我开造某建筑,赶走你的侦察兵后又马上取消之。这样一个小骗术,AI怎么破?AI能产生“我有点不放心,再去看一眼”的心思么?这让我想到了《三体》中描写的,三体文明军事力量遥遥领先,且通过质子实现了完全监视——相当于SC中“地图全开”,照样败给人心隔肚皮的渺小地球人。
从围棋人机对战上,我们看到AI已经开始具备“模糊判断”的能力了,但这样的模糊判断能力显然离玩转SC所需的要求相差甚远。AI对战术的选择,现阶段可能还是选用“概率最大”的方案,即倾向于最“万金油”的战术。暴雪自身的AI其实亦是采用这样的方案。
3. 人类是真的会“犯错”的,即博弈论的基本假设可能都不存在。
博弈论乃至整个经济学体系都有一个基本假设,就是人必须是“理性人”。但是现实中显然不是如此,所以在应用经济模型解决现实问题时——至少在结果上——常以失败告终。
人类在玩SC时,且不说人类会别出心裁或孤注一掷或感情用事地放弃选择明显的更优策略——这些都可权且理解为“战术”,归根结底,人类是会犯错误的。比如计算错误,生产了错误的单位或卡了人口;更多的则是操作失误,一个选手APM 300一场30分钟比赛,两只手要输出近万次操作,这里面可能有相当大比例的废操作和误操作。其中任何一次真失误,都可能对AI产生误导。这进一步增加了AI在进行博弈(判断)时的难度。
除了实战,AI甚至在其平时学习时都会受制于此。仅从操作指令的有效性而言,AI赖以学习的海量人类对战replay属于高度污染的元数据。我作为外行,AI自我学习的过程难以脑补,所以很好奇总是基于污染的元数据的学习是否会导致“走火入魔”?
4. 人类工于“老谋”而AI长于“深算”,但AI的反应速度反而可能比人类慢。
假使上述三点难题都被克服,那么运算速度的问题又将浮现。AlphaGo与李世石的对战中,我们看到李总是早早陷入读秒,似乎人类需要更多的时间思考。但SC是即时性游戏,人类的很多指令并非都通过思考,很多是通过经验、直觉甚至是条件反射瞬时完成的。但对AI而言,即使一次简单的“思考”可以在极短时间完成,但思考过程本身却不可缺省。
若AI必须步步计算而人类能大量瞬发指令,则在即时性的战场上AI反而会比人类反应更慢。
一个可能的解决方案是:AI可以设定“宏命令”来缩短思考时间,即遇到情况A就启用A计划,计划A包含了一系列指令,不用每个单一指令再分别思考。但是,这个前提是AI能够判断出现了“情况A”从而触发宏命令,这种程度的“判断”又将增加上述问题2的难度。
BTW,AI有没有能力自编“宏命令”?如果谷歌的工程师事前为AI编写了大量“宏命令”,算不算作弊?
5. AI只能基于大数据学习,所以AI的对手只有一个:人类。
这个问题在围棋人机对战时,AlphaGo团队就介绍过。针对单个棋手的棋局数据太少,AlphaGo无法通过区区几千局的数据棋勾勒出该棋手的风格特长。
变数更多的SC亦是如此。人类对战,必然会多看几场对手近期的rep从而对对方的打法风格有个大致了解,这对于在战场上做上述问题2的判断时有极大的帮助。但AI就算读完该选手生平所有rep都无法对此人的“打法”做一总结。所以就算在面对某位以“XX流”闻名天下的对手,它也不会把防御“XX流”的战术提高一丁点的优先级。
对AI而言,对手是谁并不重要。对手就是“人类”全集。
总而言之,我认为目前AI要在SC这样的RTS游戏中战胜人类还为时过早——虽然这只是个时间问题。其实以上所列的这些难题,某种程度上并不是AI的难题,而是背后的工程师们的难题。AI已经可以深度学习,可以模糊判断,但本质上,目前的AI还是属于遇到一个问题,就从已积累下的浩如烟海的人类已有的解决方案中找答案——当找不到答案时,AI即会出现Bug般的决策失误,犹如与李世石的第四局棋。什么时候AI能真正自己“创造”答案时,那才是AI自己直面难题的开始。
但那也可能是高级AI真正觉醒的开始。
最后再唠叨句,跳脱出AlphaGo等的表现来看AI,从经济学的角度出发,AI的爆发期似乎也要到来了。AI从深蓝到AlphaGo的进步,其源动力其实是计算机运算能力的局限。因为当运算能力提升至极限也不可能做到“穷举”时,才需要AI优化运算方法——学会模糊判断。人类或提高硬件(提升运算能力)或提高软件(优化运算方法)都能提升计算机解决问题的能力。
过去四十年,遵照着摩尔定律,计算机运算速度一直在飞速提升。但是摩尔定律失效之日已近在眼前。Intel已经逆天地推出了14nm芯片,纳米是什么概念?1nm等于10个水分子的直径。分子的大小摆在那,那么精细的芯片制造工艺的极限也就摆在那。更何况实现商业价值的极限会早于技术上的极限先被触及。
但人类的欲求总是在膨胀。人类总会希望解决越来越复杂的问题。A= B*C,为了满足A的不断增长,当B(运算能力)的提升遇到瓶颈时,人类就会将更多的资源投入到提升C(运算方法)的追求上。这里不是指Intel们一定会改行去研究AI,而是整个宏观的人类世界的资源和关注度的转移。到时,全世界会有越来越多的AlphaGo团队在AI领域攻坚。
而这个产业的终局,应该会形成一家独大的垄断——即所谓“天网”的出现。