一边是枯燥的数据标注工作,一边是游戏,你选哪个?很多人会毫不犹豫地选择后者。游戏对于人类来说,带来了乐趣,同时也耗费了大量时间。如果将游戏机制运用到训练机器智能上又有怎样的效果呢?
对于机器来说直接认识图像、知识这类内容是个巨大挑战,但对于人类来说却是微不足道的小事儿,利用人类对这些内容进行识别并标注成为机器能认知的知识图谱将大大提升机器的认知能力。但庞大的知识标注毕竟是个浩大的工程,即使是人类也会因其枯燥繁琐而望而却步。
《设计有目的的游戏》是LUIS AHN和LAURA DABBISH在《ACM通讯》的投稿文章。本文通过对游戏赋能知识转化为知识图谱的解读,让数据标注有了游戏化的解决方案。此文重点讲述了以下几个核心观点:
1、人类用大量的时间来玩游戏,而游戏可以运用到数据标注这件事情中来,并以ESP等三个游戏作为模板进行研究。
2、利用人类能力训练机器智能实践已有很多,包括网络节点协作、开放性思维计划、交互式机器学习。
3、如何系统地实现借助人类能力实现游戏化数据标注训练机器智能。
事实上,EpiK 推出了游戏化数据标注产品-知识大陆就是此文研究结论的实践。为了更深刻了解作者对游戏化的解读,现转载全文如下:
对于人类来说,许多任务是微不足道的,但对于计算机程序,即便是最复杂精细的计算机程序,要完成这些任务仍旧面临挑战。传统算法更专注于通过改进人工智能算法来解决此类难题,因此,在这里提出一种不同的方法:利用游戏建设性地模仿人的脑力,训练计算机AI算法。
为了实现这个目标,我们提出了开发和评估这类游戏(我们称之为“有目的的游戏”或GWAPS)的一般性设计原则:在GWAP中,玩家游戏的副产物能够执行计算机无法执行的任务。
据娱乐软件协会报道,美国人每天用于玩电脑和视频游戏的时间高达2亿个小时;一个21岁的美国人,平均花了1万个小时在玩游戏,这相当于一个全职工作者工作5年所花费的时间(以每周40小时计算)。
如果这种娱乐所消耗的时间和精力也被引导到解决计算机问题和训练人工智能算法上来,又会是一种怎样的体验呢?
事实上,在游戏过程中,玩家能够执行一些计算机无法自动执行的基本任务。ESP游戏又叫做谷歌图像标注工具(images.google.com/ imagelabeler/),就是一种GWAP。玩家在玩游戏时为网页上的图像添加有意义的、准确的标签,即玩家游戏的副产物。例如,将一个人和狗的图像标记为“狗”、“人”和“宠物”。截至2008年7月,共有20万名玩家贡献了超过5000万个标签。这些标签用于优化基于web的图像搜索,而这样的搜索通常涉及干扰信息(如文件名和相邻文本)。比起使用效果不够好的计算机视觉技术,ESP游戏建设性地引导玩家以一种娱乐的方式给图像添加标签,并呈现出了节奏快、有趣、竞技性强等特点。
其他的GWAP包括Peekaboom,用于定位图像中的物体(玩家已经贡献超过50万小时的人力时间);Phetch,用描述性段落给图像注释;以及Verbosity,收集用于训练推理算法的常识性事实。在每一种GWAP中,玩家游戏的目的并不是出于他们个人对解决计算问题感兴趣,而是希望从游戏中获得乐趣。
ESP游戏(于2003年推出)和其后继游戏代表了游戏玩法和计算的首次无缝融合。
既然游戏副产物具有如此大的能量,如何对这种方法进行推广呢?
与成千上万的玩家一起构建和测试GWAP的经验帮助我们对GWAP开发的一般性指导方针进行详细说明。在这里,我们介绍三个GWAP游戏“模板”,它们代表了我们迄今为止所创造的所有GWAP的三种一般性游戏类型。它们可以应用于任何构建游戏的计算机问题,从而鼓励玩家帮助解决计算机无法完成的任务。每个模板都以满足玩家最大利益的方式来确定游戏的基本规则和获胜条件,从而执行预期的计算方法。另外,我们还介绍了一组设计原则,该原则对基本游戏模板进行补充。
虽然每个模板都规定了一类游戏的基本结构,但一般性设计原则使游戏更有趣,同时提高了玩家输出成果的质量。最后,我们提出了一组评估GWAP成功的指标,以最大限度地利用从玩家贡献的每小时的人力时间中获得的效用角度来表示。
利用人类能力训练机器智能实践
相关工作
尽管人们在之前的研究中认识到了人力循环的效用和类游戏界面的激励力量,但还没有人成功地将这些原理结合成一种通用方法,即通过电脑游戏的方式来利用人类技能解决对计算机无法完成的任务。
网络化节点协作
最早的网络化节点协作的例子是开放源码软件开发项目,可以追溯到20世纪60年代。这些工作通常包括来自世界各地数百甚至数千名程序员贡献的努力,这其中包括网络分布式协作的项目维基百科,从某些衡量标准来说,它的质量不亚于一部《大英百科全书》。
大量网络化节点通过协同工作可能完成那些难度更大、耗时更长的任务,甚至是在某些情况下个人或一小群人几乎不可能独自完成的任务。Amazon Mechanical Turk系统(开发于2005年,www.mturk.com/mturk/welcome)就是一个很好的例证:在这个系统中,大型计算任务被分成更小的组块,并分配给愿意通过完成少量工作来换取微薄收入的人。
开放性思维计划
开放性思维计划(Open Mind initiative)是一项全球性的研究实践,通过利用人类技能来训练电脑,开发“智能”软件。它从普通互联网用户(或网民)那里收集信息,并将信息提供给机器学习算法。志愿者参与其中,回答电脑无法回答的问题(如“这幅图中有什么?”),旨在教电脑程序一些常识。
然而,Open Mind的方法涉及到两个弊端:依赖于志愿者愿意无偿贡献他们的时间,并且不能保证他们输入的信息是正确的。GWAP与Open Mind的不同之处在于,GWAP的设计初衷是为了让用户感到愉悦,同时确保收集到的数据准确。
交互式机器学习
另一个利用人类能力来训练计算机的领域是“交互式机器学习”,用户向机器学习系统提供示例,并得到关于算法学习效果的实时反馈。根据反馈,用户可以确定应该向程序提供哪些新的示例。这种方法利用了人类的感知技能来训练计算机视觉算法,从而识别特定的物体。
如何系统实现游戏化?
让工作有趣
在过去的几十年里,人机交互研究人员已经认识到用户界面具有乐趣的重要性,并撰写了相关文章。例如,系统(如StyleCam)的目标是使用类游戏交互来增加使用软件的乐趣和参与度。许多研究人员认为,将类游戏的元素融入用户界面可以提高用户的积极性和工作活动的趣味性。有些项目更进一步采取这种方法,将用户界面本身变成了游戏风格。例如,PSDoom将系统管理员相关的任务界面设计成第一人称射击游戏的风格。将工作任务转化为游戏的理念正越来越多地应用于儿童的学习活动中。研究人员注意到,正如我们此时所做的,不能仅是将一个类游戏的界面强制施行在工作活动上,而是要将所需的工作活动整合到游戏本身,游戏互动和要求完成的工作之间必须有紧密的交互。
对娱乐的渴望
GWAP的做法有三个激励因素:世界上能够使用互联网的人口比例越来越高;对计算机来说,某些任务是无法完成的,但对人类来说却很容易;人们花很多时间在电脑上玩游戏。
与其他试图使用个体的分布式集合来执行任务的工作不同,我们在这里描述的范型并不依赖于利他主义的动机或金钱激励来引诱人们执行某些操作;相反,它们依赖于人类对娱乐的渴望。因此,GWAP是一种游戏,在这种游戏中,玩家游戏的副产品能够执行有用的计算。每个GWAP都应该与一个计算机问题相关联,从而产生输入-输出行为。
通过设计玩家努力实现的目标(获胜条件)和一套决定玩家在游戏过程中可以做什么和不能做什么的规则,就完全能够指定一个游戏。GWAP规则应该鼓励玩家正确地执行必要的步骤来解决计算机问题,如果可能的话,还应该包含一个有关游戏输出的正确性的概率保证,即使玩家不希望游戏输出是正确的。
游戏的关键性能是让人们想玩儿。如果玩家投入足够的时间玩游戏,我们会因此回避任何关于“有趣”和“令人愉快”的哲学讨论,而将游戏定义为“成功的”游戏。
我们提出一个转化的过程,可以将一个问题转变为GWAP。对于一个对人类来说很容易但对计算机来说很难或不可能解决的问题,将其转化为GWAP的过程包括:首先创造一个游戏,使得其结构(如规则和获胜条件)鼓励计算和正确输出。
我们已经创建了许多GWAP,包括ESP游戏、Peekaboom、Phetch和Verbosity,之后探索了三种游戏结构模板,它们使人类计算游戏的成功实例得以推广:输出协议游戏、反演问题游戏和输入协议游戏。
增加玩家的乐趣
也许GWAP最重要的方面是,将输出的过程设计得充满乐趣。在如前所述的ESP游戏中,并不是指导玩家直接输入给定图像的关键字。相反,告诉他们输入他们的伙伴可能正在输入的内容。人们享受游戏的过程促使他们想要继续玩下去,从而产生更多有用的输出。
留意到之前定义的三个基本模板描述GWAP的基本结构是非常重要的;必须添加额外的游戏机制,以增加玩家的乐趣。例如,之前许多描述游戏设计原则的工作都将挑战视为一个游戏成功的关键元素。挑战可以转化为游戏特性,如限时反应、分数保持、玩家技能等级、高分列表和随机性。
1)限时反应。为游戏环节设定时间限制的设计会以限时反应的形式将挑战引入游戏中。告知玩家在指定的时间内完成指定数量的问题实例。如果完成了,他们可以因表现好得到额外的分数。时限反应是引入挑战的有效方法,因为其建立了明确的目标,如果妥善地校准游戏,实现这些目标对玩家来说很重要。
从关于心理学和组织行为的动机的文献中,我们了解到,与过于简单或模糊的目标相比,明确规定且具有挑战性的目标会能够使玩家更努力完成任务和产生高水平表现。玩家在给定时间内需要完成的任务数量必须经过校准,才能引入挑战,并且必须在整个游戏中显示时间限制和剩余时间。
2)分数保持。激励玩家的最直接方法之一是对游戏中产生的每个成功输出实例分配分数。在ESP游戏中,如果成对的玩家为图片选择的单词成功地达成一致(这个单词就成为了图片的标签),就能得到分数。通过设定游戏中的努力、表现(达到获胜条件)和结果(分数)之间明确的关联,使用分数能够提高玩家玩游戏的积极性。每场比赛后的得分汇总也将表现反馈给玩家,从而促进评估有关得分目标的进步(例如超过上一场比赛的得分以及在设定的时间限制内完成所有任务实例)。
3)玩家技能等级。玩家技能等级,或者说排位,是游戏开发者将基于目标的激励纳入GWAP设计的另一种方式。例如,ESP游戏和Peekaboom都有五个技能等级,玩家可以通过他们积累的分数达到这些等级。新玩家一开始是没有分数的,会被指定为最低等级(“新手”),然后必须获得一定分数才能升至下一级别。
在每个游戏环节之后,玩家会看到他们当前的技能水平和达到下一个级别所需的分数。来自ESP游戏的数据表明,这种呈现技能等级信息的方式强烈地影响了玩家的积极性和行为。截至2008年7月,在20万名拥有ESP游戏账户的玩家中,42%的玩家都在5000分的排名截断点以内。鉴于这些技能等级的分数区间只占可能累积分数范围的不到2%,数据表明许多玩家继续玩游戏只是为了达到一个新的排名。
4)高分列表。激励玩家玩GWAP游戏的另一种方法是使用高分列表,显示特定时间内得分最高的玩家的登录名和分数。根据列表时限划分的难度,玩家登上高分列表需要的分数因难度不同而变化,从在过去一个小时或一周的游戏环节中获得的最高分数到历史最高分都有。
例如,按小时显示的高分列表会给玩家提供能够进入列表的一个明确的目标总分,并且能够在一小时内获得关于他们朝着目标进步的快速反馈。每日高分列表和历来的高分列表定义了增加难度的目标。这些多级目标因难度进行区分,为扩展游戏玩法和相关数据生成提供了强大而正面的激励。
5)随机性。GWAP也应该包含随机性。例如,特定游戏环节的输入通常是从所有可能的输入集合中随机选择的,为了防止作弊,玩家会被随机配对。
因为输入是随机选择的,所以它们的难度也会有所不同,对资深玩家和新手一视同仁,从而保持游戏的趣味性和吸引力。这也意味着每个游戏环节都存在不确定性,不确定所有输入是否都能在限定时间内完成,这就为玩家增加了挑战。
随机的搭档分配也确保每个游戏环节的唯一性。ESP游戏的轶事证据表明,在每个游戏环节中,玩家会对他们的搭档的相对技能产生一种感觉,这种感知会影响他们的联合表现。玩家能够从这些游戏中获得联系感,这是激励他们重复玩游戏的因素之一。
输出精确性
在基本模板结构之外,GWAP必须添加额外的机制,以确保输出的正确性和防范玩家串通舞弊。例如,ESP游戏的玩家可能会试图绕过游戏内置的验证机制,在游戏开始前共谋每次都对图像输入字母“a”; 在这种情况下,它们总能相互匹配,而将不正确的数据输入系统。我们将在下面的章节中描述普遍适用的机制,已证实这些机制成功地防止玩家串通,并保证在所有游戏模板中计算的正确性。
1)随机匹配。GWAP的目的是同时面向成百上千的玩家,并且大多数玩家都是分布在不同的地点。随机配对或分组的玩家不可能知道搭档的身份,所以无法提前串通舞弊。因此,在随机匹配的规则下,两个或两个以上使用相同策略的作弊者配对的概率应该很低。
2)玩家测试。游戏可能会随机地呈现玩家的输入,对输入的所有可能的正确输出已经为人知晓。对于他们来说,如果某个特定玩家的输出与已知的正确输出不匹配,那么这些玩家就会被认为可疑,他们的结果都不具有可信度。根据呈现给玩家的“测试”输入的数量,这种策略能够以很高的概率保证输出是正确的。为了说明这一点,假设提供给玩家的输入中一半是测试输入,那么,玩家新的输出可能是正确的,当然前提是玩家在所有测试输入中至少有50%的时间内的新输出是正确的,这种可能性可以通过重复测试来提高。
3)重复。游戏应该设计成只有一定数量的玩家完成输出,才考虑输出的正确性。这种确定正确性的策略使任何GWAP能够以任意的高概率保证正确的输出。例如,思考一下输出协议游戏;如果对于给定的输入,仅在n对玩家完成输出后,游戏才承认输出是正确,并且游戏本身知道这n对玩家中的每一对以至少50%的概率(作为玩家测试的结果)完成了正确的输出,则该输出在至少(I–½ n)的概率上是正确的。
4)禁忌输出。为了解决许多不同的输出可以与同一个输入相关联的情况下存在的问题(例如用单词标记图像),确保输出空间的充分覆盖是一个重要的考虑因素。使用“禁忌”或禁止,输出可以保证所有玩家都能完成全部可能的输出中的大部分输出。禁忌输出是指在不允许玩家进入的游戏环节期间屏幕上显示的正确输出。
禁忌输出可以取自前几轮游戏中生成的正确输出。为了考虑潜在的输出启动效应(在这种效应中,特定禁忌输出会影响他们完成的猜测),并确保给定输入的所有潜在输出都得到广泛覆盖,游戏设计师必须随机指定所要呈现的禁忌输出。
GWAP评估
如何判断一个游戏的表现是否成功?如果两个不同的GWAP解决同一个问题,哪一个是最好的呢?我们介绍一组决定GWAP成功的指标,包括产量、游戏时间和预期贡献。
游戏效率与预期贡献。如果我们将游戏视为算法,那么效率便自然是一种评估指标。对于任何给定的问题,都有许多可能的算法,有些算法比其他算法更有效。同样,对于任何给定的问题,都有许多可能的GWAP可以解决。为了选择解决问题的最佳方案,我们需要借由一种方法从效率上比较备选方案。标准算法的效率通过计算原子步骤来衡量。例如,快速排序(QuickSort)的运行时间是O(n log n),这意味着它以大约n log n个计算步骤对包含n个元素的列表进行排序。就GWAP来说,构成计算步骤的因素在概念上还不太清楚。因此,我们必须能够通过其他方法来确定效率。
首先,我们将GWAP的产量定义为每小时人力时间所解决的问题实例的平均数,或所执行的输入输出映射的平均数。例如,ESP游戏的产量约为每小时人力时间产生233个标签。这是通过测验在一段时间内单个输入(或图像)与输出(或标签)完成匹配的数量来计算的。
在计算产量时,必须考虑学习曲线和玩家技能的变化。大多数游戏都需要玩家参与特定类型的学习,这意味着利用重复的游戏环节进行学习,久而久之,玩家会对游戏操作更加熟练。对于我们之前介绍的游戏模板,随着时间的推移,这种学习方式可以让玩家操作游戏的速度更快。为了解释玩家技能和玩家速度随时间的推移发生的变化,我们将产量定义为每小时人力时间解决问题的平均数量。这个平均值是在相当长的一段时间内综合所有游戏环节以及所有玩家的表现得出的。
比起那些低产量的游戏,应该优先考虑高产量的游戏,但是产量并不是唯一的衡量标准,因为GWAP是一种游戏,所以“趣味性”也必须考虑在内。如果没有人想玩游戏,那么给定的游戏能够解决多少问题实例就无关紧要了。因此,对GWAP效用的真正衡量标准是综合游戏产量和乐趣。
乐趣很难量化,取决于每款游戏的精确设计与实现。即使是对游戏用户界面或得分系统看似微不足道的修改也会显著影响产生乐趣的程度。我们对这一难以捉摸的衡量标准进行量化的方法是计算并使用游戏的“平均游戏时间”(ALP)作为代理标准。ALP是指某一游戏所有玩家中平均每个玩家玩此游戏所花费的总时间。例如,在ESP游戏中,每个玩家平均总共玩了91分钟。
“预期贡献”是我们对GWAP质量的总结性的衡量标准。只要游戏开发者了解在游戏中每花一个小时人力时间平均解决的问题(产量)以及每个玩家在游戏中预期需要花费的时间(ALP),便能够综合这些指标评估每个玩家的预期贡献。预期贡献指的是单个玩家通过玩特定游戏能够解决的问题实例的平均数量。然后,开发人员可以使用这个衡量标准作为评估GWAP的一般方法。我们对三个GWAP指标定义如下:
产量=每小时解决的问题实例的平均数量;
ALP =某个游戏的玩家在这个游戏上平均(所有游戏玩家)花费的总时间;
预期贡献=产量×ALP。
虽然这种方法无法捕捉到游戏的某些方面(如“受欢迎程度”和感染力,或口碑),但它是一个相当稳定的对游戏可行性的衡量标准。
之前对测量乐趣和游戏乐趣的可用性惯例的研究表明,自我报告问卷调查是比较有用的方法。然而,行为性衡量标准(如产量)是一个更准确直接的评估方法,可以评估人们玩游戏的次数,转而评估游戏对实现计算目的的帮助有多大。
最后,GWAP的开发者必须验证游戏的设计确实是正确的。也就是说,游戏的输出正确地映射到向它供给的特定的输入中。有一种验证方法(如ESP游戏,Peekaboom,Phetch和Verbosity)是在人类志愿者的帮助下对输出进行分析。我们使用了两种方法来验证这种输出:将游戏产生的输出与有偿参与者(而非游戏玩家)的输出进行比较,并让自由“评估人”评估游戏中产生的输出的质量。GWAP的输出应与有偿参与者的输出质量相当。
结论
我们所阐述的构建GWAP的一套指导方针代表了用于无缝融合计算和游戏的第一个通用方法,尽管仍有许多工作要做。事实上,我们希望研究人员能够对这里描述的方法和衡量指标进行改进。
除了我们介绍的三个模板之外,可能还有其他的GWAP模板,希望在未来的工作中能鉴定出其他的GWAP模板。我们也希望更好地理解问题模板的适用性,即对于某些类型的计算问题,某些模板是否比其他模板更适合。
到目前为止,我们开发的游戏模板主要将相似性视为确保输出的正确性的一种方法;玩家会因为与其他玩家的思考方式相似而得到奖励。但对于解决某些类型的问题,这可能并非是最佳方法;尤其是对于需要创造力的任务而言,多样化的观点和视角对产生最广泛的输出集来说是最佳方法。为这些任务开发新的模板可能是一个值得探讨的领域,另外,我们还想了解哪些问题(如果有的话)不属于GWAP方法的范畴。
到目前为止,我们所设计的游戏旨在解决的问题都很容易被划分成子任务。这些游戏的“小而美”特性提高了它们的受欢迎程度,对休闲玩家特别有吸引力,因为这类玩家通常会选择那些无需投入太多时间就可以“再玩一次”的游戏。
GWAP方法象征一个很有前途的机会,即每个人都可以为人工智能的进步做出贡献。通过利用人们在线玩游戏的时间,GWAP游戏开发者能够捕获大量表达人类独特感知能力的训练数据集,这些数据有助于开发具有高级感知或智力技能的计算机程序和自动系统。
EpiK Protocol 铭识协议
EpiK Protocol 致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术(IPFS)、去中心化自治组织(DAO)和通证经济模型(Token Economy),组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。