第二章、Basic voice user interface design principle
Conversational design 对话式设计
“让用户来决定对话要进行多久”
Setting user expectations
在早期建立用户的预期是很重要的
举例:新手引导。当用户完成某一任务并有成就感时,提示用户,是否尝试下别的任务
注意点:慎重考虑是否和用户强调成功完成任务,有时提示是多余的。
1、注意任务的完整性。让用户可以设定闹钟,也要给予取消闹钟设定的渠道
2、可发现性。当作者拍照时很自然的说了句“smile” ,意外发现安卓的相机app可以通过声音唤起。
3、问用户获取信息时,给予用户一个例子。如询问生日时,告知用户数据结构,july 22, 1972
Design Tools 设计工具
Sample dialogs:选取最主要的 user cases, 然后为每个UC绘制最佳路径
补充异常流程,然后完整地读出来。
软件推荐:Celtx
visual mock-up: 可视化的草稿(VUI)
Flow:用图表展示所有操作路径
Prototyping Tool 原型工具
Confirmation 确认
根据情况提供确认机制,不要过度确认
方案一:3层信心制
大于 80,含蓄地确认
45~79,明确地确认
小于 45,表示没有听懂并提问
方案二:含蓄地确认
举例:
“The weather in San Francisco is ...”
"Ok, I've set your appointment for 10AM tomorrow morning."
方案三:非发声式确认
方案四:宽泛的确认(可在多种场景下使用)
方案五:视觉化的确认方式
Command-and-control Versus Conversational 命令和控制式 VS 对话式
以下几个问题用来区分哪种类型更适合你设计的VUI:
1、用户可以随时问系统问题或向系统提出指令吗?2、用户是否参与了一个封闭式的对话?对话的开始和结束都很明确
命令和控制式
一个经验值:通过唤醒词或按钮启动对话后无输入,系统等待时间推荐是 10s
对话式
当设计对话式交互时,可以通过一些技术来实现对话的自然转换,如:提出一个问题;使用眼部跟踪;停顿;明确的指示。提出一个问题是最简单自然的技术,当VUI询问后,用户自然而然会回答。明确的方向也很好,如“Why don't you just tell me the name of the movie you want to see”
一些用户可能会发出“mm-hmm”代表他正在听,不代表需要系统中断讲述让自己讲,这对于系统来说比较难判断。对于一些不允许用户打断的系统来说,就没什么关系,因为系统在讲话时并不会识别用户的声音。
在一些比较细致的设计中,当用户在会话结束时说“谢谢”,系统会回复“没关系”。
Conversational markers 对话标签
使用对话标签可以让你的VUI更加人性化,对话标签可以让用户了解自己所处的位置,已经他们被理解了。
对话标签包含:
1、时间线(首先、其次、最后)
2、确认和感谢(谢谢、知道了、没问题、很抱歉)
3、积极的反馈(做得好、很高兴了解到)
Error Handing 错误处理
No Speech Detected 系统等待用户发言,但没有接收到任何信息
解决方案:
1、明确地表达出来(“I'm sorry,I don't hear anything,what's your account number ?”)
当系统是IVR,只有语音功能;用户没有别的渠道来反馈;系统需要用户的反馈才能进行下一步
2、什么事都没做
用户可以通过别的渠道进行反馈;用户无反馈不会打破对话;有视觉指示表示系统没有理解
人类有很多方式来表明自己没有听懂,其中最常见/有效的方式是什么都不说,同时疑惑地看着对方,或者礼貌微笑——这些行为都让对放马上理解没有听懂
Speech Detected but Nothing Recognized 听到了但未识别
解决方案同上
Recognized but Not Handled 识别了但是处理不了
通过信息收集更好地预计用户可能会说的信息
Recognized but Incorrectly
使用 N-best lists 和对真实用户的反馈进行数据分析
Escalating error
常用的策略是使用“上升错误”当预期用户回答
举例:提醒用户需要提供什么样的信息
Weather App
I can get the weather for you. What's the city and state?
User
Uhhh...it's Springfield
Weather App
I'm sorry, I didn't get that. Please say the city and state.
User
Oh, it's Springfield,Minnesota.
Don't Blame the User 不要责怪用户
Novice and expert users
Keeping track of context 保留上下文的踪迹
Help and other Universals
Latency 延迟
较差的系统连接;系统流程;数据传输
在一些案例中延迟的时间范围是0~10秒
Disambiguation 消除歧义
当用户提供的信息不完整时,更多依靠一些已知的信息去判断,而不是一直询问用户
Design Documentation 设计文档
Prompts
Grammars / Key Phrases:举例 Yes (“yep”,"yeah","uh huh"...)
Accessibility 可达性
交互是比较高效的
保持简洁
语速略快
允许用户随时打断系统
提供参考信息/建议 帮助用户回答问题
允许用户随时询问当前的状态
TTS的个性化
第三章、Personas、Avatars、Actors、and Video Games
Personas
Should my VUI be seen ?
Using an Avatar:What not to do
Using an Avatar(or Recorded video): What to do ?
When should I use video in my VUI ?
Visual VUI —— Best Practices
1、Should my users see themselves?
在一些案例中,轮到用户说话时看到自己可以提高参与度。设计时可以考虑把这个控制权交给用户
2、What about the GUI?
3、Handling Errors
4、Turn talking and Barge-in
5、Maintaining Engagement and the illusion of Awareness
建议回复时带有人类的情感和智慧:
用户的行为、用户的不作为、用户过去的行为、一系列用户的行为、比较不同场景下用户的行为
“Jack Principles” tips
使用对话来传达亲密
和用户发生交互时确保角色表现的正确
确保对话内容无简单重复
意识到当前用户的数量
意识到用户的性别
确保对话是无缝的
避免角色出现当用户的输入无法被评估时
Visual (Non-Avatar)Feedback
Choosing a Voice
Pros of an Avatar
The Downside of an Avatar
The uncanny valley