演讲者:徐嘉南,百度高级PM,5年互联网产品从业经验,2年AI项目经验。覆盖AI平台、语音交互、智能硬件、大数据、科技金融。
课程内容:①语音交互产品的认知;②设计原则;③实战设计;④深入学习方法。
一、认知
目前AI产品三大应用方向:图像、推荐、语音交互。语音交互是直面C端的设计。
人类和设备通过自然语言进行信息传递的过程就是语音交互。这个设备可以是电脑、手机,也可以是耳机、音箱。闹钟铃声、BB声等也是一种人和机器的声音交互,但是不是通过自然语言来交互的,所以是不算的。最后一个点就是人和机器之间交互的目的是为了传递信息,不仅仅是单向收听或单向输入,还可以像人一样,能说能听,双向交流。
国外知名语音交互产品中,亚马逊echo(市场占比约60%)、谷歌(市场占比25%)和Siri(手机场景下,触摸是主要的交互方式,语音只是一个锦上添花的作用,导致Siri没有成为行业第一。)国内最大的中文交互平台百度Duer OS(百度旗舰产品,覆盖5000万设备,日活1000万,国内领先);天猫精灵(销量200万);小爱同学。
对于创业者来说,在语音交互平台上开发语音技能,就类似于在以前的安卓或者IOS应用商店里开发应用程序。亚马逊的Alexa有了23000个技能,国内平台的技能不超过300个。(11年的时候,是超级APP萌发的时候)
基本的实现原理如下图所示,这里讲一下DST和DM的区别。这两个都是系统内部术语,对话状态控制是系统在维护和用户的对话状态(我猜这里是在判断用户这个对话是单轮还是多轮),后面一步对话管理就是系统控制是该用户说话,还是系统说话。对话生成其实蛮像文案设计的。
语音交互产品设计需要设计师本身对涉及到的技术知识边界有比较深的了解。在以上图示过程中,识别前涉及到声音信号的识别率(与场景有关)与优化过程(文本纠错等);识别中涉及到声音信号的理解(意图识别有错误率,中文博大精深,而产品设计中不可能100%覆盖到所有人的对话句式,所以需要产品人员去定义常用的句式,做好用户引导和教育,弥补技术上的不足);识别之后的信息反馈和播报(信息播报的音质和音色是用户能够直接感受到的,所以这里语音合成的自然度、流畅度也是十分重要的指标)
二、设计原则
适合语音交互的需求:语音比其他的输入方式要更高效和便捷(定闹钟);安全性的要求(智能驾驶);不同设备之间的信息流转问题(物联网)。所以总结一下,适合的场景有以下特征:
①更高效。对话一定是要比现在的交互流程快,简便,且这个快是明显的,而不是可能会快一些。
②偏执行。让系统去做某件事,系统只需要结果反馈就可以了。用户不需要关心信息是如何处理的,是怎么搜索到的,只关心最后执行的结果就好了。
③设备优势。设备能够放大语音交互的优势,比如音箱可以更好地处理声音信号、解决远距离触摸的问题。
那么不适合的场景有哪些呢?①环境嘈杂,比如像有人提出来建筑工地上的一些安全巡视员在发现问题的时候,要记录在系统上,但是当时可能找不到合适的办公桌来敲字,这时如果通过设备终端录入语音或图像的说明,可以解决这个问题。这就是一个明显的伪需求。②发散交流,科幻电影给人们造成的印象就是对话助手无所不能,但当前的技术下,对话式语音助手无法做到流畅的切换,所以就需要聚焦到某个核心的场景下,去约束用户的行为。③流程过长,特别需要有大量的信息或者视觉方面的信息去做决策时。比如点外卖。
最忌讳的一点是:为了使用语音而使用语音,刻意的在自己的产品中加入语音功能。要从实际场景出发,给用户带来更好的效率,解决痛点。
三、任务型对话的设计流程
技能(Skill或Bot):一类相关性功能的集合;
意图(intent):用户明确的需求,独立且不可拆分的原则。
槽位(slot):就是执行一整个任务所需要的关键信息。
槽位完整表达时,任务直接执行;槽位表达不完整时,要澄清关键信息;有分支流程的时候,就要对不同的触发条件,以及触发之后进入什么流程要做详细的设计;退出情况,需要支持用户主动跳出该意图,也要在发生意外的时候,给出推出提示。
举个实际例子:我们要做一个语音提出差申请(必填信息有出发地、目的地、出发时间、返回时间、事由、出差类型)的场景。那么用户如果说:“我明天要去北京参加AI大会,三天后回来”,那么所需要的所有信息都已经填入了(出发地:系统定位;目的地:北京;出发时间:明天;返回时间:三天后;事由:参加AI大会;出差类型:自动划分为),这样系统就会给出一张填好的出差申请单,让用户去确认提交。如果是中间有任何一个必填字段没有获取到,那么就需要系统去询问,比如:“你要什么时候出发?”“你什么时候回来?”
那如果出差中的项目出差是必须填预算的,用户在提出差申请的时候会说:“我提一个项目出差,后天去北京”那么系统这时候判断出差类型是项目出差,就会触发分支来询问:“请问您的项目预算是多少?” 用户一时之间不知道预算是多少,可能会主动中断这次填写;或者用户说了三次错误的答案(非某个具体数字,但也可能是语音转文字错误了),那系统就不能反复去澄清这个数字,而需要主动退出,并提示用户。
至于这个提示怎么去设计,就跟小K本身的形象定位以及设计者本身的素质关联了。总之,在设计的时候,需要考虑到功能的方方面面。