佳文 砺道智库 2023-09-07 14:18 发表于北京
国际象棋是世界上最古老的战争游戏,计算机在 1997 年就掌握了它。真正的战争要复杂得多,机器仍然难以理解它。因此,尽管为当今人工智能提供动力的机器学习技术可以通过计算数字来赢得国际象棋比赛(两支由 16 枚棋子组成的军队在 64 个方格上作战),但它们无法应对实际战斗中的模糊性和混乱。
据“防务快讯”网9 月 5 日报道,五角大楼希望人工智能驱动的“战斗管理”助手帮助人类指挥官协调与数十艘舰艇、数百架飞机,在陆地、海上、空中、太空和网络空间进行机动的联合全域作战。
DARPA尝试3 种方式
美国国防部负责远景、高回报研究的官方机构 DARPA 在今年早些时候与三家公司签订了合同,将过去的机器学习推向下一代人工智能——至少在理论上,这可能有助于为人类带来秩序。DARPA 称之为“战略混乱”。
“JADC2(联合全域指挥与控制)确实需要大量规划,” DARPA项目经理Aaron Kofford说,“这就是 SCEPTER 的意义所在。”
科福德解释称, SCEPTER 是战略混沌引擎(Strategy Chaos Engine for Planning、Tactics、Experimentation and Resiliency)的缩写,其中“引擎”是对被称为国际象棋引擎的游戏程序的特意致敬。
“我是一名国际象棋棋手,”科福德说,从国际象棋人工智能中可以学到很多东西。他强调,现代国际象棋引擎不仅可以击败人类棋手,还可以通过分析棋局、评论和建议更好的走法来帮助他们。类似的战争人工智能工具可以帮助指挥官及其参谋人员规划军事行动。
“这并没有取代人类,”他强调。“这是人类的工具。” (这符合五角大楼长期的政策和战略文化,即更喜欢人与机器之间的共生,而不是像天网式的人工智能那样控制一切,就像棋子一样)。“我们正在努力改进人类所拥有的工具来帮助他们评估情况。”
“尝试”是非常重要的词。“我们仍处于‘这可能行得通吗?’的问题中。” “一步,”科福德坦率地承认。“这是一个非常疯狂的想法。”
为什么?像国际象棋这样的游戏适合计算机,因为正如科福德所说,它们是“有界限的”。虽然可能的位置总数实际上是无限的,但每个玩家在每个回合中的可用选择是完全有限且明确定义的。因此算法可以逐步探索潜在的路径,然后计算哪些分支路径可能导致胜利,哪些分支导致失败并应被修剪。(技术术语是“蒙特卡罗树搜索”)。
但对于即将投入战斗或刚刚离开大本营奔赴前线的军队来说,可能的“下一步行动”数量比 8 x 8 网格要大得多,而且难以精确测量。即使是一个普通平民早上起床,也面临着无数的选择,有的琐碎,有的激进,从“煮咖啡,然后上班”到“上班,然后喝咖啡”,再到“辞掉工作,卖掉工作”。带着我所有的东西,去尼泊尔的一个公社。”
“接下来我可以做无数的事情,”科福德说,这需要将无限的可能性减少到机器可以处理的事情上。
事实证明,要做到这一点,你需要复兴机器学习之前的一个想法,回到DARPA 所说的“第一波人工智能”:所谓的专家系统,至今仍用于从税务准备到医疗诊断的各种领域。您不必在大量数据上使用算法并通过反复试验来寻找相关性,而是从知识渊博的人类(专家)开始,定义一组供机器遵循的选项和规则。
科福德说:“我确实认为我们可以运用一些专业知识来搜索一些更重要的空间,并且搜索速度比任何个人或任何集体人类委员会都要快。”
目标是充分利用人类对宇宙的理解(如老式专家系统)和计算机处理大数据的速度(如现代机器学习)的协同作用。但就像战斗中的决策树一样,如何达到最终结果有多种想法,而且 DARPA 对不同的方法持开放态度。因此,该机构向SCEPTER 授予了三份合同——分别授予研究公司Charles River Analytics、非营利性视差高级研究公司和庞然大物BAE Systems——以探索三种不同的路径。
符号推理:人类会做什么?
普通人如何应对日常生活中令最聪明的机器感到困惑的现实世界的混乱呢?查尔斯河科学家迈克尔·哈拉登(Michael Harradon)称:“至少对人类来说,这些问题之所以能够解决,是因为人类总是在应用一大堆你可能称之为启发法或近似法的东西。”例如,当您驾驶并决定转向何处时,您不会计算从 0 度到 180 度之间的每个可能的角度,您通常只是选择左/右/直。哈拉登解释说,当税务准备软件生成您的纳税申报表时,它不会将所有可能的数字随机分配给 1040 表格的所有可能的行,然后应用机器学习来找出哪些组合不太可能让您接受审计;它遵循人类专家预先编程的严格规则。
哈拉登解释说:“任何时候你在逻辑上推论一些东西,任何时候你在制作一个清单,任何时候你在制定一个计划,这些都是符号推理的真正形式。” 计算机可能很难列出清单,但一旦制作完成,它们核对清单的速度比人类快得多,甚至比试图计算每种可能性的机器学习算法还要快。
那么如何创建足够大的清单来计划战斗呢?哈拉登承认,这就是事情变得棘手的地方。他说,你不能只使用启发式方法或机器学习,而是要“充分利用两者的优点”并将它们结合起来,相互反馈以改进对方。在某些领域,人类可以输入启发式方法来驯服大量数据;在其他情况下,算法可以处理数据,找到相关性,并推断出自己的经验法则。
“这个领域还处于起步阶段,”哈拉登承认,“[但是]有许多非常好的示范”——包括查尔斯河尚未准备好分享的一些内部研究。
以流程图的形式讲述人工智能故事
与 Charles River 将人类专业知识与计算机计算相结合的直接方法相比,Parallax 的方法几乎是异想天开:它让人们以流程图的形式讲述人工智能故事。
视差科学家范帕鲁纳克 表示,通过一步步连接所有这些相对简单的选项,您最终会得到一个复杂的可能性地图,正式称为“因果网络”。
计算机程序员已经一直在使用这种故事流程图:它是许多角色扮演游戏的基本骨架。帕鲁纳克说,你不必分析每一个可能的选择,而是将问题简化为“当玩家处于一种特定状态时,你下一步能做什么?”
视差公司的一个军事场景(他们无法与公众分享)是由一位退休的空军军士长起草的,其中包括近千个离散事件。
AI不需要理解流程图的故事来分析它,只需了解事件A有选项A1、A2、A3等,这些选项会导致情况B1、B2、B3等。为每种情况添加正值和负值,这样计算机就知道要寻找哪些情况以及要避免哪些情况,然后宽松地设置算法以一遍又一遍地探索可能性,学习人类在查看流程图时可能显而易见的最佳路径。
“这是一个非常简单的决策过程,”帕鲁纳克说,“这让它运行得非常快”,一遍又一遍,直到人工智能有足够的数据来建立关联。
可定制的抽象:模拟模拟
国际象棋引擎的一个教训是,如果你让人工智能一遍又一遍地玩游戏,它就能学得和人类一样好,甚至比人类更好。BAE科学家Marco Pravia称,虽然国际象棋太简单,无法成为现实的战争游戏,但有很多更好的模拟可用 - 其中许多是专门为国防部开发的,使用了真实世界武器系统的详细(通常是机密)数据。
“已经有一个巨大的模拟库,人们花了几十年的时间,在许多情况下,对其进行了改进,[并且]规划者已经发现它们已经有用,”普拉维亚在接受采访时说。因此,您不需要运行模拟国际象棋游戏来训练国际象棋机器人如何获胜,而是一遍又一遍地运行军事专用模拟器,直到人工智能开始了解哪些选择模式会导致成功。
当然,普拉维亚承认,有一个问题:这些军事模拟比国际象棋复杂得多,因此它们需要更多的计算能力才能运行。虽然你可以通过蛮力反复试验来教人工智能下国际象棋,运行数百万个模拟国际象棋游戏,直到它了解某些动作和将死之间的统计相关性,但你不能通过军事特定的模拟来做到这一点。
所以 BAE 走了一条捷径:本质上,他们是在模拟模拟。运行军事模拟器会创建人工智能可以分析的数据。给人工智能足够的数据,它可以创建原始模拟的简化版本,捕捉基本的动态,但抽象出次要的细节。这种简化的模拟仿真(BAE 称之为“可定制抽象”)运行所需的计算能力要少得多,因此您可以一遍又一遍地运行它,为机器学习算法创建足够的数据来分析该输出反过来。
但是,当您将原始模拟简化为“可定制的抽象”时,您怎么知道您只是摆脱了琐碎的细节,而不是重要的细节?普拉维亚承认,这是一种判断,必须由人类专家做出。
从本质上讲,它是人工智能和人类专业知识的夹层蛋糕:人类创建底层模拟,人工智能生成模拟的模拟,人类调整这些可定制的抽象以满足特定目的。
DARPA 将如何评估这三种方法是否有效?通过将结果反馈给人类。科福德说:“我们让[军事]规划专家查看了结果并说,‘实际上,这有点用’”——无论是否有用。最终,将由规划者让我们知道,如果我们要么是在浪费时间,要么是在帮助他们。”