通读本书,以下拉出各章总结,仅供参考
前言
人们已经习惯于各种各样的绘画和社交行为。比如“你好”和别人打招呼,以及在挂电话或离开前确保结束谈话。VUI并不是人类,它需要遵守这些基本的社会习俗,但即便如此,它又是否能够真正地理解用户并发挥价值呢?
第1章:导语
本章介绍VUI系统简史,以及VUI系统是否适合你和你的应用程序。本章还讲述了“对话式”的含义,并对聊天机器人(Chatbot)做了简介。
尽管VUI变得越来越常见,依然有很多用户不熟悉或者不信任它。很多人尝试了几次语音识别技术,识别失败之后就再也不用了。从一开始就要设计好,意味着要尽可能的覆盖所有的失败情况,这样才可以建立系统与用户之间的信任。
第2章:语音用户界面基本设计原则
本章为读者创建一个VUI系统打下了基础。本章会以专题形式,阐述设计及工具、会话信息确认、错误行为处理,以及如何处理新手用户和专家用户等基本设计原则。
如何分别对待新手和专家用户;以及最重要的——如何设计出错状态。
早在互联网普及以及智能手机发明之前,IVR(Interactive Voice Response)系统就已经存在了。如今,IVR系统通常被用来做电话回复的“第一阶段”。完成客户基本信息的预先收集,此外还善于将不同的客户分流给不同职能的客服,作为用户,相比真人交谈,更喜欢IVR,因为他们可以花很长时间反复咨询而不会觉得在打扰人类客服。
移动VUI有他的设计原则1、确定它是否需要一个视觉化的呈现,比如虚拟角色。2、确定VUI什么时候允许用户说话、用户可以被打断吗?需要按键功能吗?(文字、语言、视觉、动作、环境)。移动VUI通常用于单论任务,这种形式的交互是非常独立的,不需要系统来维护大量的信息,而我们更要考虑“对话式设计”
对话式设计——思考如何与VUI系统进行一轮以上的交互,思考用户接下来可能会做什么。不要强迫用户展开新一轮对话,而是尝试了解用户的意图并允许用户继续交谈。此外,有必要为近期用户所说的话保留历史数据,上下文理解,一般来说,让用户来决定对话要持续多久。1、如果不能理解答案,就不要提问。2、可发现性(一般来说流程不可见),
设计工具:流程图,需要列出用户进入下一个状态分支的所有方式
对话式标识是让用户了解交谈进展以及进展情况的重要方式。当系统在对话中使用了一些基本的对话礼仪后,用户的参与度会更高,并且会以同样的方式进行回复,这会将交互的各个部分连接在一起。对话式标识包括时间线(首先、最后)、接收回执(知道了、好的)、积极反馈(很高兴听到。。)。
确认信息的方式:1、三级置信度 2、隐形确认(回复时添加问题主题)3、非语言确认(提示音)4、通用确认(对情况进行同理心回复,如听到后很难过)5、视觉确认
VUI可能出错的情况:1、未检测到语音。2、检测到语音但未识别。3、语音被正确处理但系统无法识别。4、部分语音识别错误。
设计IVR系统时,确保每个状态都包含一组通用组件:重复、主菜单、帮助、操作和再见。另一块重要的部分是,一个全局的退出机制。
另一个经常被设计师忽略的问题是“延迟”。消除歧义,如果没有足够的上下文信息来帮助判断,系统就需要让用户来进行确认。
有关无障碍设计——VUI设计中:1、交互应该是省时高效的(简短、语速快一些、随时打断) 2、交互应该提供上下文语境(我在哪) 3、交互应该优先考虑个性化而不是个性(个性化TTS) 最需注意:设计者不应该去假设所有的用户会以某种模式来访问系统,所有的访问模式都应该随时可用。 减少用户认知负担,避免在一个问题中加入过多的信息。
小结:
典型的VUI项目交付包括以下内容
示例对话(真是的录音)
流程图
提示列表
界面原型
如果是与外部客户进行合作,这些设计交付成果将用来展示出最终成品的形态,供客户进项审阅和反馈,本章介绍的一些更关键设计概念包括以下:
确认策略(你的用户如何知道系统理解了自己的话)
你的VUI应该使用命令——控制式的对话模式还是对话式的对话模式
异常处理(总会发生一些错误,你需要优雅地处理)
上下文(记住用户的话,无论信息在同一会话还是之前的对话中)
如何处理不明确的输入信息
帮助命令和其他通用命令
为移动设备设计是一个会丰富你的经验,也会更复杂的工作,你需要确定如何让你的用户知道他们可以在何时何地说话,以及何时何地使用视觉反馈。让用户能够与移动设备交谈,开启了用户体验的新世界大门,VUI可以增强日常功能的体验。
第3章:人物模型、虚拟形象、演员和视频游戏
阐述了VUI系统中必不可少的人物模型设计(虚拟形象)
判断是否需要可视化组件,以及如果需要,最好的设计方法是什么。所有VUI系统,无论是否有诸如虚拟形象之类的可视化组件,都要有一个人物模型。在语音用户界面领域,“人物模型”这个词基本等同于“角色”,就像书或电影中的角色一样,其更适合的术语定义是:用户通过应用程序的语音以及语言选择,推断出的人格或角色的标准化心理形象。从VUI行业目标角度来说,人物模型是一个媒介,通过它,企业可使用语音来塑造品牌服务形象。
建议在设计角色人格时,认真思考符合你角色人格设定的原则(产品目标、公司目标、道德目标、社会目标等)
话轮转换与打断:
在传统交互式语音应答(IVR)系统中,来电者通常可以在提示回放时进行“打断”。这在IVR系统中非常管用。因为用户不能轻易跳过选项,也不想在继续他们的任务前听完所有的可选项。
在IVR系统中,当用户打断系统时,提示音会停止,并且会在用户再次说话时(huo 在无语音超时之后)播放新的提示。
你应该多花一些时间决定你的VUI是否需要有一个可视化组件,不要因为虚拟角色看起来很酷就加一个。你的系统是对话式、娱乐性、移情作用情况下虚拟角色是比较好的选择。
投入创建一个虚拟角色不是小事,要建立自己的虚拟角色,你需要一个专门的设计团队,或者你考虑用第三方设计的角色,让你的虚拟角色可以表达情感,但不要看起来毛骨悚然或者仅仅是一遍又一遍重复同样的手势,这些都是非常具有挑战性的,仔细想想是什么让你想使用一个虚拟角色,并用原型进行用户测试以确保不走弯路。
第4章:语音识别技术
本章对VUI设计师来说非常重要。它是语音识别技术的入门介绍,了解一些语音识别技术的知识,将对你的设计产生重大影响。
为了创建一个VUI系统,你的APP必须要有一个关键组件:自动语音识别引擎(ASR)。ASR就是能将用户语音转换成为文本的技术。
选择语音识别引擎时,以下两点很关键:1.稳定的数据集/识别准确性 2.语音端点检测表现(如何判断用户何时开始或结束说话)
新公司往往很难突入语音识别市场——就算具有很好的技术,但仍缺少大公司经年累月沉淀的大量数据。也取决于他们涉及的领域范围有多广。
语音打断,常用于交互式语音应答(IVR)系统,从而用户可以随时中断系统。当系统检测到任意语音时,都会立即停止播放当前提示音并开始收听用户讲话。在IVR领域,语音打断功能的好处显而易见,IVR系统的菜单或选项列表一般都很长,而且流程繁琐,总是强迫用户等待。
当用户打断系统时,你在设置提示和问题的停顿时需要格外小心(1.5s适用大多数)。
唤醒词,也成热词(hot word)或魔法词(magic word),使用热词技术后,系统只会在播报信息时识别少数几个关键词,例如“上一条”。当用户说话时,系统不会像一般的打断模式一样立刻停止播放。除非系统识别到了关键词。
分析数据是了解如何调整终止时间的最佳方法。通过查看真实用户所说的录音文本,你可以找到用户说话时经常暂停的地方,而你需要在这些地方增加语音终止超时时长。
N-BEST列表,最优解,当语音识别引擎识别到用户说的话后,通常不止返回一个识别结果,而是会根据用户说的返回一个列表,即一系列用户可能说的内容,并根据可能性或按照置信度排序。
语音识别的挑战:
1.噪音
ASR工具最棘手的难题之一就是噪声处理,其中包含恒定噪音以及在用户说话时周围突然产生的噪音,还包括周遭的说话声,通常建议 用户移动到一个噪音比较少的环境或者利麦克风更近一点,但是如果猜测错误,这些建议反而会惹恼用户。你可以改用不断升级的错误提示来帮助用户,并提供其他非语音的方式来帮助用户继续操作。
2.多人讲话的情况 多设备下,无论哪个响应都可以(八章)
3.儿童
4.名字、拼写和字母数字
本章小结:
作为一个VUI设计师,了解你设计对象的技术基础有着重要的意义。了解ASR工具的优缺点可以使你的APP在表现上领先于他人。具备较高的识别准确率仅仅是VUI的一部分,如何围绕着识别出来的内容进行设计,在一个良好的用户体验中起到了至关重要的作用。
了解语音打断、语音超时、语音终点检测以及不同环境下的技术挑战将会有助于你设计出最佳的VUI体验。
第5章:语音用户界面设计进阶
本章内容远超第2章中已涵盖的内容,包含了更复杂的自然语言理解、情感分析、数据收集和文本转语音策略。
目前VUI技术的缺点之一是,有很多对用户的承诺无法实现,实际上,它可以处理的事情非常有限
为了让你的VUI作用超越基本信息交换,可以利用本章所述的概念,例如不仅仅只是让VUI识别基础关键词,而是让用户输入更复杂的内容。
仔细考虑从设计方案的选择,比如使用TTS还是录制的声音。通过使用自然声音连接策略来提高理解能力。花点时间想想你的VUI是使用唤醒词还是使用按键通话。
通过已有信息建自助数据集成或者采集你自己的数据,可以使你的VUI在一开始就更好用。利用所有这些技巧会使你的VUI更易用、准确与成功。
第6章:语音用户界面的用户测试
本章详细介绍VUI的用户测试,与移动应用和网站的用户测试有哪些不同。本章将介绍低保真的测试方法、远程测试和实验室测试。本章还将介绍如何测试汽车以及其他设备的VUI系统。
本章讲述了语音用户界面测试的使用方案(成本由低到高),包括如何访谈测试对象以及如何衡量测试结果,帮助VUI设计师在开发的早期阶段快速执行用户测试。
如果存在类似的IVR系统,通常意味着有呼叫中心的人工客服做后盾。用一下午的时间坐在呼叫中心接听电话,可以获得丰富的信息。接听用户的来电可以了解到真实的情况,这是仅研究IVR系统本身无法做到的。
第7章:完成VUI后,下一步该做什么
本章概述了当你的VUI在投入实际使用后所需要用到的方法论,包括如何以及通过哪些信息来分析并提升你的VUI系统。但不要等产品发布后再阅读本章,因为在系统开发时,你就需要知道哪些日志需要记录,这一点很重要。
预发布测试
1、对话遍历测试(Dialog Traversal Testing,DTT)。你需要在真实环境下进行测试,通过电话运行测试脚本遍历所有对话。该过程中每一步都必须正确执行,同时必须给出正确的提示。
2、识别测试。
3、负载测试。验证系统在多用户同时访问时能否正常运行。
日志信息:包含以下内容
识别结果(当用户说话时,识别引擎听到的内容,及其可信度)
如果可以,记录N-Best列表(可能的假设列表)
每个状态下用户语音的音频,包括该时间点前后的语句(用于转录,因为识别结果不会100%准确)
识别器匹配的内容
错误情况,包含无语音超时(包括计时信息)、无匹配内容和错误识别等
状态名称(或其他跟踪用户在app中的位置的方法)
延迟
如果出现打断,记录打断信息
即使会话失败,也要记录用户的语句,包括用户在给定状态下表述了不止一件事情,这个信息也很重要。
转录,有了语音识别结果、匹配内容和音频转录等信息,你才能评估VUI系统的性能。
调研(SurveyMonkey)
在早期设计阶段,首先必须明确成功的衡量标准和任务完成的定义,以便各利益相关者达成一致,开发人员也能有充足的时间为日志任务构建基础框架。对一个成功的VUI而言,实时跟踪系统故障并能快速改进是必不可少的。
第8章:带语音功能的设备和汽车
最后一章侧重于之前章节中没有出现的VUI系统,设备一节将包括家庭助理设备和可穿戴设备。汽车和无人驾驶车辆中回顾了汽车VUI设计中的挑战与最佳实践。本章的大部分内容由这些领域的专家们贡献。