该文章为译文，由于语音交互的资料不多，把自己能看到的中英文资料汇总下，以便自己和有需要的人学习。这篇文章主要讲了如何设计智能语音设备中的用户交互界面，理论性没那么强，很贴近实践，可以参考借鉴。国外的文章，案例大多数都是苹果、Amazon和Google的语音助手，学习方法论的同时，还需深入思考，结合应用场景和不同的语言文化进行VUI设计。在学习文章的同时，欢迎多多讨论。原文链接如下

https://www.toptal.com/designers/ui/designing-a-vui

越来越多的语音控制设备，例如Apple HomePod，Google Home和Amazon Echo等正在席卷市场。语音用户界面正在帮助改善各种不同的用户体验，有人认为，到了2020年，语音将为搜索提供50％的动力。

启用语音的AI可以即时处理几乎所有的事情。

“我接下来的日程安排是什么？”

“帮我预订去牛津街的出租车。”

“使用Spotify播放爵士乐！”

微软、谷歌、亚马逊，苹果和Facebook这五大巨头科技公司均已开发或正在优化具有语音功能的人工智能助手。 Siri是Apple iOS和HomePod设备的AI助手，每月帮助超过4000万用户完成各类事项，据ComScore称，如今，美国十分之一的家庭已经拥有智能语音扬声器。

无论我们是在谈论用于移动应用程序还是用于智能家居扬声器的VUI（语音用户界面），语音交互在当今的技术中都变得越来越普遍，尤其当人们对屏幕产生疲劳的时候。

Echo Spot不同于Echo Show，它是亚马逊的最新款智能语音设备，同时包含了语音和图形界面

用户可以使用语音命令做什么？

Alexa是支持语音功能的亚马逊设备（例如Echo智能扬声器和Kindle Fire平板电脑）的AI助手，亚马逊目前在语音技术（销售方面）领域处于领先地位。

在Alexa商店中，一些最时尚的应用程序（称为“技能”）专注于娱乐，翻译和新闻，尽管用户还可以执行诸如通过Uber请求出行，通过Spotify播放音乐或甚至通过达美乐订购比萨。

另一个有趣的例子来自商业银行Capital One，该银行于2016年引入了Alexa，并且是第一家这样做的银行。通过Alexa添加Capital One应用，客户可以检查其余额和到期日，甚至还清信用卡账单。 PayPal通过允许用户在iOS或Apple HomePod上通过Siri进行付款使这一概念更进一步，并且PayPal的Alexa技能也可以做到这一点。

但是，「VUI可以做什么」和「用户实际使用它们做什么」是两件事。

ComScore表示，拥有智能扬声器的用户中，超过一半的用户使用其设备来询问一般的问题，查看天气和播放音乐，然后用户指令最多的是设定闹钟、待办事项和日历提醒（请注意，这些任务相当基本）。

你可以发现，其中许多任务都包括问问题（例如，语音搜索）。

那么用户会使用语音搜索些什么呢？

当人们开车的时候，他们会使用语音搜索，当用户不能触摸屏幕的场景下（比如做饭、健身或是在工作时需要处理多个任务时），可以触发语音交互。

因为有了Google Assistant和Android Auto，查看实时的交通路况更新变得特别容易

语音用户界面用户研究

虽然了解到用户使用语音的普遍程度，但对于UX设计人员来说，对他们自己正在设计的VUI应用进行用户研究很重要。

用户旅程图

用户研究是通过观察和反馈了解用户的需求、行为和动机。以语音为渠道的用户旅程图不仅仅帮助了用户研究员去定义不同级别用户的不同需求，也帮助了他们确认语音交互会如何或是在哪种场景下被触发。

在尚未创建客户旅程图的情况下，设计师应突出显示语音交互将在用户流程中出现的位置（可以突出显示为机会，渠道或接触点）。如果已经有了该企业的客户旅程图，那么设计人员应查看是否可以通过语音交互来改善用户流程。

比如，当用户总是通过社交媒体或是实时聊天系统问某一重复的问题，那么也许可以将其整合到语音App中。

总而言之，设计是为了解决问题，用户在用户旅程图中会遇到什么困难和障碍？

VUI竞品分析

通过竞品分析，设计师可以找出竞品将语音交互界面执行落地的方式。你需要带着以下问题是做竞品分析：

他们的应用程序的用户用例是什么？

他们使用语音执行哪些指令？

用户是如何评价这些app的，我们可以从中学到什么？

收集需求

为了设计语音交互界面，我们首先需要定义用户需求。除了要创建用户旅行图、进行竞品分析之外，其他的研究方式比如用户访谈和用户测试也会很有帮助。

对于VUI设计，这些书面要求尤为重要，因为它们涵盖了开发人员的大多数设计规范。第一步是捕获不同的场景，然后将其转变为用户和语音助手之间的对话流。

举一个新闻App的用户故事的例子：

“作为用户，我希望语音助手阅读最新新闻，这样我无需查看屏幕即可了解最新情况”

有了这样的用户故事，我们可以为其设计对话流程。

语音指令拆解

在创建对话流程之前，设计人员首先需要了解语音命令的结构。在设计VUI时，设计师经常需要考虑语音交互的目标是什么（在这种情况下用户想要完成什么？）

用户指令包括三个关键因素：意图、表达和词槽。

让我们分析以下请求：“使用Spotify播放轻音乐。”

意图（语音交互的目标）

意图代表了更广的用户语音指令，它可以是确定意图或是模糊意图。

确定意图是执行并完成一个确定任务，比如打开或者关闭客厅的灯，或是把热水器调到一个特定的温度。设计这些指令的时候非常直接，因为用户对智能语音助手的期待非常清晰。

模糊意图更加模糊，通常也更难解析。比如，如果用户想要再听一次阿姆斯特丹（hear more about Amsterdam)，我们需要检查意图是否包含在服务范围里，然后问用户更多的问题去了解用户的要求。（hear more about Amsterdam也可以是了解更多关于阿姆斯特丹的信息的意思，因此意图是模糊的、有歧义的）

上述的例子中，用户真正的意图是：用户想要听音乐。

表达（用户如何遣词造句发出指令）

表达反映了用户如何表达他们的请求。在给定的示例中，我们知道用户希望通过说“ Play me…”在Spotify上播放音乐，但这并不是用户发出此请求的唯一方式。例如，用户还可以说：“我想听音乐...。”

设计师需要考虑到各种表达方式的变体，进行用户问法扩充，这将帮助AI引擎识别请求并将其连接到正确的操作或响应。

词槽

有时只有一个意图是不够的，我们需要用户提供更多的信息才能完成指令。Alexa称这些信息为“词槽”，“词槽”就像传统表单一样，它可以是选填或是必填的，取决于需要哪些去完成指令。

我们的案例中，词槽是“放松的”，但是设备不需要它也可以完成用户的指令，所以这个词槽是可选的。然而，在用户想要叫车出行的时候，关键的词槽是「目的地」，而且它是必填词槽。可选输入将覆盖任何默认值，例如，一位用户要求出租车「下午四点」到达将覆盖默认值「尽快」到达。

使用对话流制作语音交互原型

语音交互设计师需要像编剧一样思考、为每一个需求设计对话。对话是可交付的，概述了以下内容：

触发交互的关键词；

代表对话可能会导致的分支；

用户和语音助手之间的示例对话；

对话流脚本说明了用户和语音助手之间一去一回的对话。对话流就像图形界面设计中的原型图，它可以被描绘成一个图解（就像下面这个例子），有的原型应用可以用来创建对话流。

一个阐明了意图、词槽和整体对话的示例对话

制作VUI原型的应用

一旦你撰写好对话流，你就可以使用app制作语音交互原型了。市场上已经有了一些制作语音交互原型的工具，比如，Sayspring这款软件帮助了设计师为亚马逊和谷歌应用创建了有效的语音原型。

Sayspring是一款可轻松实现Alexa技能或Google Home Action原型制作的工具

亚马逊还提供了自己的Alexa Skill Builder，使设计师可以轻松创建新的Alexa Skills。 Google提供了一个SDK；但是，这是针对Google Action开发人员的。 Apple尚未启动其竞争工具，但很快他们将启动SiriKit。

亚马逊的Alexa Skill Builder，设计人员可以在其中为支持Alexa的设备制作VUI原型

语音应用的UX分析

一旦你赋予了Alexa新的技能，你可以追踪应用和分析一起使用。亚马逊和谷歌提供了一个内置的分析工具；你也可以为了更缜密的分析整合第三方服务。（比如亚马逊Alexa的voicelabs.co，或是谷歌助手的dashbot.io）。需要注意的关键指标有：

参与度指标，每个用户的会话数量或是每个会话的消息数量；

使用的语言：

行为流；

消息、意图和表达

VUI设计实用技巧

在设计移动应用和网站时，设计人员必须思考哪些是主要信息，哪些是次要信息（不那么重要）。用户不应接收过多的无用信息，但与此同时，他们又需要足够的信息来完成任务。对于语音来说，设计师必须更加小心因为所有词汇（可能是一个相对简单的GUI）都可以与之沟通。在传送复杂信息和数据的情况下，这尤其困难。这意味着用更少的词会更好，并且设计师需要确保该应用程序能够满足用户的目标并保持严格的对话状态。

确认任务何时完成

在设计电子商务结帐流程时，关键屏幕之一是最终确认界面。这使客户知道交易已被成功记录。

同样的概念也适用于语音交互设计。比如，当一位用户在客厅要求语音助理关掉卫生间的灯时，如果没有确认，他们就会走进客厅并检查，使语音应用程序彻底失去能为用户解放双手的目标。

在这种情况下，“厕所灯已关”的回复就很好。

创建一个强有力的错误策略

作为一个VUI设计师，设计一套强有力的错误策略很重要。始终针对语音助手根本听不懂或听不到任何声音的场景设计一定的反馈或回复。分析还可以用于识别错误的顺序和误解，从而可以改善错误策略。

当检查替代对话的时候你需要问下面几个关键问题：

你是否识别了交互的意图？

AI是否可以解析用户的信息？

AI是否需要来自用户的更多信息以便更好地完成用户的指令？

我们能否交付用户要求的东西？

添加额外的安全性

谷歌助手、Siri和Alexa现在可以识别每一个不同的声音，这为用户增加了安全性。与面部和指纹识别ID相似，语音识别软件正在不断提高，模仿声音已经越来越难；然而，在现在这个时候，它也许还不够安全，添加授权就非常必要。当处理敏感数据时，设计师可能需要设计一个额外的身份验证步骤，例如指纹，密码或面部识别。在个人消息传递和付款的情况下这个步骤显得尤为重要。

百度的语音助手小度已在肯德基的多家餐馆中使用，并使用面部识别功能根据年龄和历史订单提出用餐建议。

VUI革命的曙光

VUI现如今兴起，并在接下来几年会被应用到越来越多的产品的中。有人预测未来十年我们不会再使用键盘与计算机交互。

当我们思考用户体验时，我们依旧倾向于看到或者触摸到的。因此，语音作为一种交互方式很少被想到。然而，在设计用户体验界面时语音和视觉并不是互斥的——它们都可以为产品增添价值。

用户研究需要回答语音是否可以提升用户体验，并且考虑到支持语音的设备的市场份额增长的速度有多快，这个研究很值得花时间，因为它可以帮助提升app的价值和质量。

了解基础

什么是可触摸的用户界面？

一个可触摸的用户界面可以通过点击、轻扫等手势与设备发生交互。可触摸的用户界面通常在触摸屏上显示。

什么是语音界面？

语音交互界面是无形的界面需要语音与其进行交互。具有语音识别软件的常见设备是Amazon Alexa智能扬声器。

Echo是做什么的？

亚马逊的Echo智能扬声器使用语音识别软件帮助用户使用语音交互完成任务，即使用户和Echo在不同的房间。Echo智能扬声器受到了语音助手Alex和被称作“技能”的VUI app的助力。

（译）设计一个VUI——语音用户界面