语音交互界面VUI在增强现实眼镜中的运用（一）

语音交互

接触AR眼镜已经一年多了，在经历的项目中我发现一个有趣的问题，市面上研发的AR眼镜大都具备语音交互的功能但却鲜少有用户用之。对此我开始对语音交互产生了兴趣，并且展开学习。在近期经历的大型项目中，用户使用场景为工业场景，用户佩戴上AR眼镜需要配合Pad终端完成工业检修工作。在这个工作中，用户需要同时手持pad终端和佩戴AR眼镜对设备进行一系列查看，并将数据同步至Pad终端。（同步数据的操作会由服务器周转来实现，并通过OCR识别，图像识别记录数据，其容错率低于10%，所以不排除人为需要手动修改数据的可能）。由此，我便产生了疑问，觉得语音交互在这个场景下应该是个好东西啊！（这里找了一张钢铁侠佩戴AR设备并对机器进行语音操作指令的图片，这并不会妨碍他利用双手拯救世界嘛！）

电影《钢铁侠》镜头

在进入跟AR相关的语音交互运用内容前，首先让我们简单了解一下语音交互在国内外的发展现状。早在1968年的电影《2001太空漫步》中，就出现了最早回应语音指令的智能计算机的概念，由此便开启了人类对语音交互可能性的探索和认知。

Nuance是全球最大的语音技术公司，其专利及市场份额皆为领军。苹果Siri，三星语音助手及各大航空公司都采用其技术。

微软利用深度神经网络技术将语音识别错误率降低至18.5%（要知道，在语音识别领域，任何5%的提升都是革命性的），这也是大大提升了语音技术商业化的潜力。

Google则开放其api，覆盖80种语言，发展出众多的使用案例，其编辑的语言设计文档，阅读之后我也是从中获益良多。（https://developers.google.com/actions/design/）

苹果公司通过挖人，收购技术也让siri在移动终端中崭露头角。

亚马逊则是研发了Echo音箱，结合其互联网服务入口的优势，将语音交互带入了普通家庭的生活服务中去。

而国内，被誉为中科院典范的科大讯飞则占据国内超过60%市场份额的语音识别引擎的霸主地位。其次是百度，投入重金斩获近13%的市场份额，语音技术也十分成熟。除此之外，许多大型公司都搭建起了自己的语音识别引擎，目的多半自产自销，自研自用。

这样的一个现状可以看出语音技术已经成熟，但又为什么很难成为主流的交互手段呢？在正式结合AR眼镜使用语音交互进行分析前，我想再聊聊构成语音交互的准则（或准确的说语音交互中对话的准则）、其需要待解决的问题以及语音交互使用的用户场景。

语音交互是否行得通取决于两点：语音识别和语义理解。这是技术的核心，但文章所涉及的主要以VUI为主，所以不多做展开。

语音交互除了从技术上实现对于语音和语义的理解以外，其重要的部分在于“对话”，学会对话是语音交互的灵魂。对话的四点准则可概括为：质的准则、量的准则、相关准则、方式准则。简单来说就是要确保对话过程之中的信息真实有效，且与对话内容相关，说话需要直截了当和清晰明了。补充一种说明，便于理解，人与人在交流的过程中能够相互理解对方因为习惯性所吞噬的某个词语，某个表达方式，但是机器就像是跟你语言不通的外国人，要想让机器了解你在说什么，所说的对话内容需要是既定的，学习过的，有目的性的，以及在相应对话中所包含过可以被理解的信息内容。现在语音交互中所存在的最大的问题也是待解决的问题就包括了对信息的辨别，即在对话过程中所产生的：对自然语言的识别和理解问题；语言信息量大的问题；语音的模糊性问题；以及环境噪声和干扰对语音识别影响的问题。

这些问题似乎是困扰语音交互发展的棘手问题，然而并不是很难被解决。这就需要产品在设计之初，需要考虑到语音交互所需要的用户场景。考虑用户场景是十分重要的，但往往很多涉及到语音交互类产品容易走向误区，他们宁愿去满足足够多的功能，也不愿意试图满足用户的真正意图。举个例子，一家汽车厂商在推出车载语音系统时添加了很多无用的冗余功能，于是售后就在用户购买此车之后接受到了很多关于语音车载系统的抱怨和投诉。其后期的运营成本更加的多了。因此在考虑用户使用场景的同时，要以用户的使用意图为优先考虑，才不会事倍功半，误入歧途。我笼统的归纳了用户需要启用语音交互方式的场景：需要释放双手的情况；需要做到快速回复的情况；具有一定私密性触发一些操作指令的情况。

这里我开始结合AR眼镜的使用场景做进一步分析。市面上出现的增强现实的眼镜都会拥有一些硬件按钮帮助实现常规的开关机，唤醒机器功能，点击操作等，而由于现在大多数AR眼镜致力于工业，医疗，建筑等领域的科研方向，为这些行业服务会在作业人员使用AR眼镜时无法真正解放双手。举个例子，当一个见习医生初期需要在佩戴AR眼镜辅助下完成主刀手术时，由于手上拿着手术刀、手术钳等器械导致不能点击AR眼镜上的进入下一步操作按钮，如果通过手势去操作势必需要将手上的手术刀放下，再进行手势操作指令，而手术室的场景中不存在多余眼镜设备，不会出现一条语音指令唤起多台设备工作的可能，因此在这个场景下，语音交互似乎变的极具优势。（这种AR辅助医疗方式仅仅是假想的用户场景）所以AR眼镜作为另一种较为新型的移动终端似乎也是语音交互系统绝配的载体。巧合的是，AR眼镜问世的最大目的也是为了解放用户双手啊！

简单描述了语音交互在AR眼镜中的用户场景，之后会进一步对AR眼镜下语音交互中所设计到的“对话”做进一步研究和学习。分享一张Google的语音系统规范中提供的图片，帮助VUI设计师在建立语音交互的“对话”时需要考虑的要素。

Google语音交互文档规范说明图

在之后的文章中会写到在AR眼镜终端中语音用户界面基本设计原则；人物模型，虚拟形象和声音模型的选择；语音用户界面设计进阶问题；在AR眼镜使用中语音用户界面的用户测试以及VUI建立后需要做的测试研究。

语音交互界面VUI在增强现实眼镜中的运用（一）

语音交互界面VUI在增强现实眼镜中的运用（一）

相关阅读更多精彩内容

友情链接更多精彩内容