会话AI是人工智能的一个子领域,专注于在人与计算机之间产生自然而无缝的对话。近年来,我们在这方面看到了几项惊人的进步,自动语音识别(ASR),文本到语音(TTS)和意图识别方面的重大改进,以及Amazon Echo等语音助手设备的火箭发展和谷歌之家,估计2018年家庭中有近1亿台设备。
超越机器学习的新工具
机器学习,特别是深度学习,在过去几年中已经成为AI领域中非常流行的技术。它已经推动了面部识别,语音识别和对象识别等领域的重大进步,使许多人相信它将解决会话AI的所有问题。但是,实际上它只是我们工具箱中的一个有价值的工具。我们需要其他技术来管理有效的人机对话的所有方面。
机器学习特别适合于涉及在大型数据库中查找模式的问题。或者作为图灵奖得主Judea Pearl的简洁说道,机器学习基本上解决了曲线拟合问题。会话AI中有几个问题可以很好地映射到这种类型的解决方案,例如语音识别和语音合成。该技术也已应用于意图识别(采用人类语言的文本句子并将其转换为用户意图或愿望的高级描述)并取得了很大成功,尽管使用此技术捕获意义时存在一些限制。自然语言,本质上是有状态的,对语境敏感,而且往往含糊不清。
但是,计算机对话中肯定存在一些不太适合机器学习的问题。将人机对话视为由两部分组成:
自然语言理解(NLU) - 理解用户所说的内容
自然语言生成(NLG) - 为用户制定合理的主题响应。
最近的注意力主要集中在第一部分,但是在发电方面仍存在许多挑战,而这些挑战往往不适合机器学习,因为响应生成不仅仅是收集和分析批次的产物。数据的。维持可信,持续和有状态的对话的挑战将需要在未来几年更多地关注这些问题的NLG和对话管理部分。
更高保真度的体验
今天的会话体验可以非常简单和受限制。为了超越这些限制,我们需要支持更高保真度的对话。实现这一目标有几个部分,包括:广泛而深入的对话、个性化和多模式输入和输出。
在循环中寻找人类的正确角色
作为技术专家,我们经常被驱使尝试以计算方式解决每个问题。然而,重要的是要注意一些领域,例如游戏和娱乐或销售和营销,可能总是希望精细地制作计算机响应的声音和个性以匹配他们的品牌。此外,最近已经注意到,尝试生成完全自动化的自然语言生成可能不是最佳前进方式,因为最自然的人类对话不是重复大量先前对话的结果,而是通过考虑当前上下文形成的,独特的双方的会话历史,以及一系列更广泛的会话技巧和惯例。
今天,这些创造性的输入必然处于人类写作层面,系统可以识别每个上下文的个体响应,并定义对话应该如何流入下一个问题或主题。这就是目前所有计算机对话体验的工作方式。我们似乎不太可能在未来几年完全消除这种人在循环中,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。例如,计算机响应能够在更抽象的层面上定义其关键特征。
结合更丰富的语言生成和对话管理系统工具,更高保真度的体验以及更好地在循环中使用人类将产生更好的内容,并最终将我们带入一个充满愉快和无缝计算机对话体验的世界。
文章来源:http://www.xixi.ai(息息人工智能)