厮杀之前，你对语音的特点了解多少

用户抓不住，赢了又如何

引子

进入正题之前总爱先说两句引子，语音在近两年炒得火热，经历过一番厮杀，现在整体市场趋于稳定，各公司已结合自己现状纷纷寻找突破口，做平台，做方案，做硬件，做软件，层出不穷，然而原本是人工智能时代掀起的一场技术革命，在激烈的竞争面前，却演变成了一场商业战争

新的交互方式必然衍生出新的交互接口，智能音箱，智能耳机，智能手表，智能家电都是人工智能语音技术应运而生的产物

今天这些做硬件的能不能在大浪淘沙下生存下来，不是产品体验如何，功能如何，生态如何，看的是在一个个智能单品上，谁能烧的起钱，占据足够多的市场份额，直到将其他玩家挤出场外

从阿里的99元天猫精灵X1开始，抢占市场的硝烟就弥漫开来，小米以299元发布小米智能音箱，京东49元甩卖原价399的叮咚TOP，带来的战果是今年上半年国内智能音箱销量达到了500万台

对于站到最后的人是赢了，但是对于用户呢，对于人工智能语音本身呢，好的体验，好的服务代表需要更高的成本，价格上的降低势必带来其他方面的牺牲

各企业打算用互联网的竞争思维去入局人工智能，为了抢占风口，他们没有时间去思考什么样的体验才是最适合用户当下场景的，什么样的技术需要长远布局的，但是和互联网不同的是，人工智能的技术才刚刚起步，标注数据的积累，算法的功能性，鲁棒性，都还有很大的空间，还有很多事情需要沉淀下来才能得以快速发展

而因为浮躁，用户难以使用到能够发挥出语音优势的产品，语音技术的发展没有好的竞争环境来推动，所以我们难以生产出可以作为标杆，作为现象级的产品

所以在今年618，我们可以看到与以往不同的现象开始浮出水面:

小米在米粉节以99元的小爱音箱赚了一波销量之后，618只是正常销售，百度只是在618的上午试水了一波，就草草收官，阿里的补贴力度相比之前也小了很多，去年双11，天猫精灵X1补贴力度为400元，今年主要围绕mini音箱的促销，由于成本低，补贴力度也仅为110元

长期低价的促销策略，产品越来越同质化，mini产品体验不足，带来消费者注意力的麻木，越来越不认同，没有了消费的欲望

本以为互联网巨头会围绕智能音箱必有一战，但表现出来的却是：

各家的宣传热情下降，连销量战果展示都没有；长期价格战，同质化严重的产品，导致消费者越来越无感；一日百万台销量的爆发力没了，后劲不足。相比亚马逊去年“黑色星期五”的日销400万台的战绩，而且有愈战愈勇的趋势，我们却逐渐透支着用户对于智能产品的敏感度

总结来看，造成今天国内智能音箱的疲软有几个原因：

没有刚需性需求

也就是现在国内的音箱技能就围绕几个主要场景，刚开始入手感觉功能，交互方式都很新鲜，但一段时间之后就发现，很难形成使用习惯，特别是对于用户来说需要付出成本才能享受到的服务，如果消费的新鲜感降下来，低价，科技也逐渐变为了噱头而已

没有很强的认同感

人们对于新的事物总喜欢将它们和过去的事物相比较，如果有很多功能，实用程度不足以往，产品又没有让人们惊艳的功能或者使用体验，那么都会成为用户口口相传的诟病，认同度的下降也会如同瘟疫蔓延开来

产品本身存在很多问题

有些企业认为智能硬件无非就是将一系列的功能打包，附着在各种硬件上，总会找到适合的应用场景，但是由于很多技能对场景本身的不匹配，对于场景的针对性不强，甚至很多基本功能的实用性都还不足，反映出来一种浮躁的现状

面对着疲软的态势，现在很多企业又开始将目标转移:音箱之所以很难被认同，是因为场景有限，功能在应用时信息展示效率低，人们一时间也不容易接受纯语音的交互方式，所以将未来的趋势又指向带屏化

带屏幕，确实相比纯语音有其优势，但是今天的智能音箱之所以发展后劲如此不足，是因为很多企业，设计者在一开始入局都没有弄清楚，语音，它究竟相比于其他交互方式有什么优势，究竟有什么界面所不能替代的特点，有什么对于语音再合适不过的场景，因为语音本身所具备的特点还没有想透彻，对一件事物还没有做到足够的了解，去盲目使用自然会感觉力不从心，越来越艰难。屏这根救命稻草也抓不住多久

那么本文就阐述个人对于语音所探究的六大特点：

自然——语音最直白的特点

在互联网出现之前，我们通过实体接触解决问题，虽然低效，但很自然，因为一切行为都是顺从身体机制发出的。移动互联网将人和物都放到虚拟平台上，所有的事情在平台上解决，效率提升了，但是代价是我们要遵从它随之带来的交互机制。而语音可以将两者很好的结合，既借助了网络扩展了资源，加快了速度，又让解决问题的直观感受回归到过去的自然状态。用户在产生的某种需求之后，只要将它说出来问题就能够或者有机会得到解决，相比于去依附于某一种机器，打开应用，再进行应用规定的一系列流程这种反身体机制的操作要自然，舒服得多。

高效——语音最大的优势

优质体验的一个特点就是高效，高效意味着在需求产生的一刻，到这个问题被解决中间的过程精简到最少，语音无疑满足这个特点，而且在一些场景下尤为突出：

第一、用户能够明确说出他们想要的是什么

就拿搜索来说，过去在使用手机时，我们要经历的步骤是拿出手机，解锁，打开浏览器，点击搜索框，输入搜索内容，翻看结果，而用语音我们只需要问题说出来即可，因为在搜索这个场景，用户的需求是明确的，效率的提升发挥到极致，类似地在思考其他场景，可以将这个作为能否发挥高效优势的标准之一

第二、能不能有距离感

也就是用户需要用来解决问题的物体和用户当下所处的位置是有距离的，这样可以省去用户到达该设备中间的过程，在下一条会详细说明

第三、用户需要解放双手

这是因为现在人们在忙碌的手头事情大都占据眼睛和手，但是嘴是闲着的，所以用户可以借助语音一边忙碌手头的事情，一边用语音将问题解决，比如，用户在洗衣服时，发现没有洗衣液了，可以直接在洗衣服的同时，让智能音箱买一瓶洗衣液，不需要因为手脚被占用，不得不完成一件事再去完成下一件事。

距离感——语音比界面的突出优势

上一点提到的距离感可以增加解决问题的效率，属于距离感中的空间距离感，也就是不需要依附于某一种物体，只要有需求，说出来就可以，省去了去寻找或者走到设备的时间，在家居、办公这种封闭场景很合适，而空间距离感也是语音很容易产生伪智能的关键，为什么echo要比siri受欢迎的多，因为手机这种即时在手边解决问题的设备，已经省去了空间距离，同样的遥控器在手上，开关在手边，加上语音都是多余的，而一旦产生距离，语音的优势就会凸显出来

还有一个是时间距离感，我们现在使用的界面，总是在我们当下有什么问题时，拿起手机或者打开电脑，立即将问题解决，而语音可以将时间延迟，设置在某一个时间点让机器完成某件事情，比如，忙碌到上午十点，还有很多任务没完成，可以让机器在中午十一点帮你定一个外卖，这件事情既不会影响你现在手头的工作，也让你省去了午饭订餐不及时的顾虑，对于人们当下突然想起某件事，但是又顾虑真到了做这件事情的时候想不起来的场景尤为适用，同时也可以看出，当它和解放双手这一特点结合起来，优势更大

人格化——语音的特殊意义

我们无论在互联网还是移动互联网，大都是用界面解决问题，会发现无论使用界面多少次，频率有多高，机器永远都只是机器，只是一件帮助我们完成当下要解决的事情的工具

但是语音不同，通过一次多轮或者多次对于机器的使用，他在用户的脑海中已经不知不觉被赋予了人格，就好像真的是一个医生，一名教师，一个家庭管家在和我们面对面交流，以各自的身份帮我们解决各个领域的事情，因为对话这件事在人们的观念中应该是人与人才能做的事情，虽然在使用产品初期用户会有意识在和机器对话，但是随着服务的次数增多，聊天轮数增加，这种意识会越来越模糊

互联网将资源整合，通过手机、电脑给我们在解决问题上带来便利，但是过去在线下解决同样事情的感觉却没有了，比如，过去我们去店里买衣服，虽然耗时费力，但购物来打发时间，享受服务的感觉也是随之附带的，而互联网让我们足不出户也可以购物，选择的商品也更多，但是购物的感觉也是和过去的购物相差甚远的

这是我们在享受互联网带来的功能上的多样性，便利性的同时，要接受的交互上的学习成本和体验代价

而语音可以让用户回到过去的享受实际线下被服务的体验，因为它可以通过设计对话赋予机器以角色，让用户有一种置身店里的感觉。拿购买衣服的场景举个例子，(不过其实对于质量外形有要求的商品，不是很适合纯语音)

“我想买件衣服”
“您想买外套，衬衫，还是卫衣呢”
“看看外套吧”
“您现在身高，体重有多少？”
“身高185，体重150”
“了解，再问一下您有什么特别喜欢的颜色么”
“蓝色吧”
“好的，根据销量为您推荐三款，XXX，价格XXX，XXX，价格XXX，XXX，价格XXX，第一款偏休闲，搭配牛仔裤，白色T恤很合适，第二件给您推荐了牛仔外套，颜色偏浅蓝色，在购买的人中，90%的人都认为质量很好，第三款风衣，很适合您这种身高，搭配一双靴子，回头率一定很高”

有的人会感觉语音这样交互的次数太多了用户会感觉厌烦，其实应该弄清楚不耐烦是因为你解决问题的效率要比用户预期低了很多，但是这和被服务是两回事，很少有人会因为到了店铺里服务人员帮助他们介绍感觉不耐烦，反倒是没人搭理，感觉服务态度太差没有了购买的欲望，所以这就是角色化的体现，在当下的场景，用户是被服务的，用了线上的资源，同时享受线下的体验

而至于机器是什么角色，比如同样是教师，是什么性格，教学风格的教师，要看设计师或者产品经理如何定义自己的产品，以什么身份给用户提供身临其境的服务，这是界面所不能带来的

自己的想法：如果你的场景是封闭域的，那么你要侧重定义的是角色的身份，比如它是医生，老师，导游等，这种角色化会让用户通过和机器简短的交流很快有代入感，将服务的体验提升。在开放域侧重定义的是角色的个人信息，比如它的性格，爱好，生活习惯等，这样在闲聊时可以更加自然，当然如果两方面都涉及，在定义角色时也要兼而有之

将信息放大——容易被忽略的特点

这个特点是语音天然存在的，在对话设计时可以进行巧妙使用，但是也容易被人们忽略，由于语音的传输时单通道，所以决定了用户和机器只能是一个在说，一个在听，缺点是显而易见的，信息传输速率太慢，让用户感觉不耐烦，但是其实这也是优点，因为在为用户提供语音服务时，这种传输的方式可以将服务的信息放大化，那么自然被服务的感觉也会放大

比如说：

“帮我买袋洗衣液”
“根据销量为您推荐XXX，价格XX，需要为您购买么”
“可以”
“稍等，请说支付口令：569525”
“569525”
“正在付款，该店家有满200减30的优惠活动，现在价格为XXX，购买成功”

如果是界面，我们对于优惠已经越来越麻木，但是语音来表达信息可以将这种优惠的体验放大，给用户以惊喜，同样地，很多在交互上的巧妙设计，都会因为通过语音传输而放大，当然如果是鸡肋设计也同样会放大，是惊喜还是诟病，还是要看对于场景和用户的理解程度

还有一点将信息放大的体现在于，在安静的场合人们容易被声音吸引，在热闹的场合人们容易被视觉吸引，所以我们在选择场景时，可以为语音选择相对安静的场景，一方面人们更容易在人机交互时集中精神，另一方面机器在主动为人们提供服务时，人们更敏感，更容易获得信息。

语音交互针对个体——人的参与

语音相比于视频图像的很大不同的一点在于，后者大多是在某种公众场合，解决此场景下的人们存在的问题即可(车站，十字路口，房间门口)，虽然为人们服务，但是人们不需要实时地参与其中

但是语音不同，当人们用语音解决问题时，人和机器是要一对一交互的，所以对于用户使用机器的场景，交互的方式都要考虑，因为有了人的参与，而人是进行服务时最大的变数，视频只要把当下场景中的问题，任务，分类聚类，算法分析就好，但语音会因为和用户进行跟进服务，要对于可能的各种结果处理考虑的更全面

我自己对于和人进行语音交互的对话设计，总结了四个步骤：

用户会在什么样的场景下使用我的产品（搭框架）

用户会如何表达出他们的需求（用户说法）

用户在表达出他们的需求后会有怎样的心理预期（可能回复）

你想在用户使用产品后留下怎样的体验感受（体验复盘）

以上是我个人现阶段对于语音特点的及几点思考，特点掌握的越彻底，应对措施才能越实用，越有针对性，比如为了发挥语音角色化的特点，我们可以设计主动服务，它同时也可以解决用户不能明确说出他们的需求的问题

如果想生产能够改变人们解决同类问题的生活习惯的机器，只是通过市场行为本质上是在欺骗用户，而且对技术本身发展也不利，真的能让人们感觉到实用，方便的产品才能打动人心，人们也愿意为了优质的产品去买单，先要物美，价廉才有意义，而且对于技术的发展也更有指向性，将资源合理利用，我想起码需要对语音，对场景有足够的理解才能基于此去进行设计，如果对于语音本身都能做什么，特点如何，都了解的不是很透彻，又何谈做出改变人们解决问题习惯的新型产品

结语

愿做语音产品的你能足够了解语音，在此基础上为它找到真正合适的场景，将优势发挥出来，不要让这本来可以颠覆生活的技术因为市场的因素不能得以发展，直至没落

参考

智能音箱大战618哑火！说好的火拼呢？-智东西寓扬

厮杀之前，你对语音的特点了解多少

厮杀之前，你对语音的特点了解多少

相关阅读更多精彩内容

友情链接更多精彩内容