百度高级PM谈语音交互类产品的设计

演讲者：徐嘉南，百度高级PM，5年互联网产品从业经验，2年AI项目经验。覆盖AI平台、语音交互、智能硬件、大数据、科技金融。

课程内容：①语音交互产品的认知；②设计原则；③实战设计；④深入学习方法。

一、认知

目前AI产品三大应用方向：图像、推荐、语音交互。语音交互是直面C端的设计。

人类和设备通过自然语言进行信息传递的过程就是语音交互。这个设备可以是电脑、手机，也可以是耳机、音箱。闹钟铃声、BB声等也是一种人和机器的声音交互，但是不是通过自然语言来交互的，所以是不算的。最后一个点就是人和机器之间交互的目的是为了传递信息，不仅仅是单向收听或单向输入，还可以像人一样，能说能听，双向交流。

定义

国外知名语音交互产品中，亚马逊echo（市场占比约60%）、谷歌（市场占比25%）和Siri（手机场景下，触摸是主要的交互方式，语音只是一个锦上添花的作用，导致Siri没有成为行业第一。）国内最大的中文交互平台百度Duer OS（百度旗舰产品，覆盖5000万设备，日活1000万，国内领先）；天猫精灵（销量200万）；小爱同学。

对于创业者来说，在语音交互平台上开发语音技能，就类似于在以前的安卓或者IOS应用商店里开发应用程序。亚马逊的Alexa有了23000个技能，国内平台的技能不超过300个。（11年的时候，是超级APP萌发的时候）

基本的实现原理如下图所示，这里讲一下DST和DM的区别。这两个都是系统内部术语，对话状态控制是系统在维护和用户的对话状态（我猜这里是在判断用户这个对话是单轮还是多轮），后面一步对话管理就是系统控制是该用户说话，还是系统说话。对话生成其实蛮像文案设计的。

对话式交互产品原理

语音交互产品设计需要设计师本身对涉及到的技术知识边界有比较深的了解。在以上图示过程中，识别前涉及到声音信号的识别率（与场景有关）与优化过程（文本纠错等）；识别中涉及到声音信号的理解（意图识别有错误率，中文博大精深，而产品设计中不可能100%覆盖到所有人的对话句式，所以需要产品人员去定义常用的句式，做好用户引导和教育，弥补技术上的不足）；识别之后的信息反馈和播报（信息播报的音质和音色是用户能够直接感受到的，所以这里语音合成的自然度、流畅度也是十分重要的指标）

二、设计原则

适合语音交互的需求：语音比其他的输入方式要更高效和便捷（定闹钟）；安全性的要求（智能驾驶）；不同设备之间的信息流转问题（物联网）。所以总结一下，适合的场景有以下特征：

①更高效。对话一定是要比现在的交互流程快，简便，且这个快是明显的，而不是可能会快一些。

②偏执行。让系统去做某件事，系统只需要结果反馈就可以了。用户不需要关心信息是如何处理的，是怎么搜索到的，只关心最后执行的结果就好了。

③设备优势。设备能够放大语音交互的优势，比如音箱可以更好地处理声音信号、解决远距离触摸的问题。

那么不适合的场景有哪些呢？①环境嘈杂，比如像有人提出来建筑工地上的一些安全巡视员在发现问题的时候，要记录在系统上，但是当时可能找不到合适的办公桌来敲字，这时如果通过设备终端录入语音或图像的说明，可以解决这个问题。这就是一个明显的伪需求。②发散交流，科幻电影给人们造成的印象就是对话助手无所不能，但当前的技术下，对话式语音助手无法做到流畅的切换，所以就需要聚焦到某个核心的场景下，去约束用户的行为。③流程过长，特别需要有大量的信息或者视觉方面的信息去做决策时。比如点外卖。

最忌讳的一点是：为了使用语音而使用语音，刻意的在自己的产品中加入语音功能。要从实际场景出发，给用户带来更好的效率，解决痛点。

三、任务型对话的设计流程

技能（Skill或Bot）：一类相关性功能的集合；

意图（intent）：用户明确的需求，独立且不可拆分的原则。

槽位（slot）：就是执行一整个任务所需要的关键信息。

槽位完整表达时，任务直接执行；槽位表达不完整时，要澄清关键信息；有分支流程的时候，就要对不同的触发条件，以及触发之后进入什么流程要做详细的设计；退出情况，需要支持用户主动跳出该意图，也要在发生意外的时候，给出推出提示。

举个实际例子：我们要做一个语音提出差申请（必填信息有出发地、目的地、出发时间、返回时间、事由、出差类型）的场景。那么用户如果说：“我明天要去北京参加AI大会，三天后回来”，那么所需要的所有信息都已经填入了（出发地：系统定位；目的地：北京；出发时间：明天；返回时间：三天后；事由：参加AI大会；出差类型：自动划分为），这样系统就会给出一张填好的出差申请单，让用户去确认提交。如果是中间有任何一个必填字段没有获取到，那么就需要系统去询问，比如：“你要什么时候出发？”“你什么时候回来？”

那如果出差中的项目出差是必须填预算的，用户在提出差申请的时候会说：“我提一个项目出差，后天去北京”那么系统这时候判断出差类型是项目出差，就会触发分支来询问：“请问您的项目预算是多少？” 用户一时之间不知道预算是多少，可能会主动中断这次填写；或者用户说了三次错误的答案（非某个具体数字，但也可能是语音转文字错误了），那系统就不能反复去澄清这个数字，而需要主动退出，并提示用户。

至于这个提示怎么去设计，就跟小K本身的形象定位以及设计者本身的素质关联了。总之，在设计的时候，需要考虑到功能的方方面面。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,589评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,615评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,933评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,976评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,999评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,775评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,474评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,359评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,854评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,007评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,146评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,826评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,484评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,029评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,153评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,420评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,107评论 2赞 356

百度高级PM谈语音交互类产品的设计

一、认知

二、设计原则

三、任务型对话的设计流程

推荐阅读更多精彩内容