作者Khoi Vinh通过采访Sayspring的创始人,探讨关于语音界面的话题,语音交互逐渐变成了热门,在应用层上也越来越成熟,Alexa和Google Home成为了最大的竞争者,阿里和sony也都于今年入场,这一块领域的应用层有了很大的想象空间,Khoi从工具创造者的角度出发,分析了语音交互与视觉界面的不同,并列举了许多例子,来阐述语音交互的场景和局限性。
原文链接:Finding a Voice for Design in Voice UIs
原文作者:Khoi Vinh
设计师们总是需要为技术转变做好准备,语音助手成为了与计算机互动的新方式,我对这种方式饶有兴致,因为它感觉是必然趋势。不论我们是不是很快就能带上AR眼镜或者沉浸在VR的虚幻空间中,通过语音与Alexa,Google Assistant或者Siri交流已经是实现了的新体验。然而,即使我们在潮流的开端,在这些平台上的创建工具仍然是原始的。
这也是为什么我看到Sayspring之后,就留下了深刻的印象。尽管有很多语音开发工具,但是Sayspring是第一个,将语音界面作为设计问题来对待,这一点我很认同。这款app可以让那些对语音界面和bot没有经验的人,也可以轻松地创建Alexa的原型,几分钟内在硬件上运行Google Assistant。除了出色的技术能力,快速追踪的能力也很优秀,语音app的体验需要大量的迭代,谨慎的试错—换句话说,设计。从语音界面的角度考虑,会提出很多的问题,如何将技术演变成能让用户产生共鸣的语言。因此,我采访了Sayspring的创始人Mark Webster,关于Sayspring的展望,以及对语言助手的看法。
Khoi Vinh:是什么让Sayspring与众不同,比Amazon和Google提供更好的开发kit?
Mark Webster:正如你所提到的,Amazon和Google都专注于发布代码模块和教程,帮助开发人员快速构建简单的应用,比如测试和事件生成器,这很好的让人能够踏上这样一条船,但是它也导致了一些蹩脚的语言应用出现,虽然平台是新的,语音API也是新的,产品团队没有太多的经验。此时需要的不是在媒体上的承诺,不是如何去构建语音,而是我们在构建什么,我们为什么要构建它,它是为了谁?
回答这些问题,就需要将设计作为过程中的一部分,我们需要一套工具来消除语音使用的技术障碍。这就是Sayspring,我们的协同设计应用让设计师,体验师和产品人员制作语音驱动的体验,并实时的交流,而不需要编码和部署任何的东西。
我们也相信,伟大的语音体验从专注用户路径开始,这就是 Sayspring制作原型和设计的过程。你不需要了解复杂的背后技术,你只需要专注体验,添加命令和响应,然后在任何设备上与您的项目对话,也可以在开发之前与其他人共享。
“如果在构建产品的初期就用错了方法,之后的事情都是在浪费时间”
优秀的公司都明白设计在web和mobile中的价值。Sayspring迁移到了语音当真。随着发展,我们会让每个人都更容易地使用语音应用。当时如果你从一个错误的方法出发,之后的一切都是在浪费时间。
这个原型和设计的方法超过了一般人对工具的期望:它们帮助你构建完整的产品。
让我们来看看语音的发展,在语音应用方面,仅Alexa就拥有超过11000个Alexa skills,产品的完整性也开始丰富,构建的过程也会越来越简单,但是更多的应用会逐渐被抛弃。
每一款颠覆性的媒介都会有一个早期阶段,创造者从早期的媒介中获取信息,然后推移到新的媒介上。第一个电视节目是在摄像机前播放的广播节目,第一个移动应用只是微小版的网站,需要花费一些时间来理解新媒介的能力和细微差别,创造出充分发挥优势的体验。
我们正在尝试推动,将Sayspring作为语音设计工作中的必要内容。
我们能够发现这样的改变,我们与过去不同,语音的互动让我们更接近自然的交流,应用必须适应现状的人。没有鼠标,键盘或屏幕来学习使用,我们都会交流,语音应用必须满足这一点,这也是我们与数字世界沟通的巨大挑战。
从视觉界面转换到语音界面,能够继承的优势就是,它们都是基于文本的,因此设计和开发的划分会模糊,这意味着一旦你完成了设计工作,会很简单地进入到开发和部署工作去,我们的工作是成为一个,团队可以在多语音平台上设计,构建,管理他们的语音应用的工具。因此,我们计划着端到端的构建过程,我们需要集中精力在设计值得输出的体验。
“语音指令,让互动更接近人类的交流方式”
你相信语音界面会是基于文本的吗?我最近有关注Apple的CarPlay,Google Android Auto,还有Amazon最近发布的Echo Look。这似乎都在表明,语音和屏幕是一个有效的组合。
我的意思是,语音设计过程的输出、话语、实体还有语音,最终都是基于文本的,这会让设计和开发过程间更流畅。许多语音驱动的体验都会包括一块屏幕,但语音仅作为一种传统的gui输入方式。我们为Sayspring提供了演示支持。Alexa和Google Hom的视觉组件目前仅限于文本和图像,因此很容易实现。Sayspring会结合photoshop和sketcj,来做好视觉层的处理。
我们对语音和屏幕的多模态做了很多思考,想象一个助理在你的后面跟着你的电脑,他们会完成你要求的任务。你可以说一段话,让它去完成,并在一些场景下,将成功展示在电脑屏幕上。
所以你可能会告诉它你周末想去看一场演出,并说了些你感兴趣的节目,你看过了什么,期待什么。如果你决定买票,他们会给你提供一个电影院的座位图。你会告诉他们买什么票,如何完成交易。也可以是通过VUI的形式完成。
我想通过这样的心智模型,来帮助理解语音的用户体验是什么。
如果让大多数人对新的媒介感兴趣,是我们的一项目标。我们不仅帮助人们学习语音设计过程,还要告诉他们如何设计体验,太多的语音应用只是开发者创建,大多数的语音产品没有合适的设计过程。我们认为自己是语音对话设计的倡导者。
帮助设计师使用新媒介,也是我们设计产品的一项挑战,人格设计是语音设计中至关重要的一部分,除了选择需要使用的单词外,还可以使用SSML(语音合成标记语言)来添加停顿,改变单词的发音和声调上的变化。
SSML看起来与HTML,我们正在考虑在SSML中添加富文本编辑器。没有设计师反馈需要更好的SSML工具。但是,当我们把它推向世界,它是否也能创造更好的语音体验?我们如何控制语音实践的过程?做出更有机的反应?对于我们来说,这是一个很难回答的问题。
考虑一些事情会发现这是不一样的体验。你对一个好的语音设计师有什么样的概念?对一个好的视觉设计师呢?两者有什么重叠呢?
虽然它可能成为下一个新的设计方向,但仍应该遵循我们熟悉的设计过程,所有的设计工作,包括声音,都应该从定义问题出发,进行研究,集思广益,设计解决方案,收集反馈,迭代。好的语音设计师也会是在工作中思考驱动的人。
Sayspring想要成为画布,设计师通过它来面向新的媒介工作,从他们熟悉的过程,通过工具获得启发。这种新形式的设计是一些学科的交叉,它们有很长的历史可以借鉴。基于手机的交互语音响应(IVR)系统的设计就是语音驱动的。文案与剧本的写作,专注于词语的选择,信息传递,叙事和个性的传递。声音设计和画外音对节奏,音调,听觉氛围有很大的影响。
我们也会有多名设计师,在一个语音平台上共同工作。大多数的Alexa skill和Google Assistant都没有将非口语音频作为体验的一部分。例如“earcons”是一个简短的,独特的声音,用来标记用户在程序中的位置,就像使用不同饿颜色来识别网站的部分,没有人使用这种方法。几乎所有的skill都让你知道你打开了它,通过说“欢迎使用+技能名”,而不是播放一个简短熟悉的音频剪辑,这会随着时间而改变。
我们很快就会看到语音应用的设计团队,会包括交互设计师,具体语音剧本文案的策划,声音设计师添加增强,提示,氛围音效。我们希望Sayspring能做到。
你认为有更丰富的技能和场景化的工作流程能干帮助Alexa skill和Google Assistant发展到下一个阶段吗?绝大多数的应用都很难找到新的用户,即使用户安装了,也很少会继续使用,除了Spotify,我不知道还有哪款应用可以这样做。
我认为聪明的团队应该能够更深入的了解如何使用新的媒介,以及在现有平台上的改变,都会推动语音的变化。
Alexa了解你的越多,能够修复的问题也越多,音乐是语音界面的理想应用,但连接到Spotify之后,就再也不用寻求Spotify了。我们看到越来越多这样的情况。Alexa刚刚发布了一个新的视频API来链接机顶盒和流媒体服务,不需要特定的技能和程序调用。Alexa启动了这类技能,现在说“Alexa,切换到ESPN。”就能马上改变电视频道。
许多早期技能都是起点,达美乐披萨推出了一项Alexa skill,科研让你重新订购之前的披萨。达美乐的CEO Patrick Doyle说,越来越多的人使用这种技能,已经让公司投入更多的资源来优化订购体验了。他们正努力重新构建订单。不同的尺寸,品类,交易额,反馈,都是困难的设计,需要更深思熟虑的设计。
但同时,转换到语音比单纯的skill和action更重要。Google Analytics宣布支持了语音,在移动端和桌面,你可以问“我们上周有多少访客”,而不是一个单纯的界面。win10种25%的cortana请求都是通过语音完成的,每月有一亿的cortana活跃用户,人们已经习惯在电脑前与它交谈,设计语音界面很快会成为一个团队的新任务。
我认为披萨预定是一个不错的前奏,但我想知道语音界面在实际应用上,在复杂任务的局限性。在我个人的经验中,即使是播放音乐也超过了我的认知。除非我有一个明确的想法,知道我要听什么,我必须保留我喜欢的音乐和歌手收藏。而当我看到iTunes,就像我看到厨房里各种各样的东西,我不会知道站在厨房里去呼唤Alexa或者Google Home。这些语音界面是否有实际的限制?缺少具像化的视觉界面?
每种媒介都有自己的优劣,设计师就是要推动这种媒介的感知极限,以找到最有价值的解决方案。很多Alexa处理音乐的时候会发现问题,所以它通过“适合下厨的流行音乐”和“适合睡眠的古典音乐”来解决。我想说的是,问题不是单单添加屏幕就可以解决的。
我不认为语音界面有实际的限制,而是回到它的优点和缺点,不是所有的事情都适合语音操作。如果浏览Pinterest,没有屏幕是不可能的。想要重新设计厨房,然后坐在沙发上,看着电视屏幕,通过语音操作征求意见,提出建议,浏览厨房照片,手持酒杯,这听起来不错。但可能是因为一杯惬意的酒,你可能认为语音代表了一种更随意的方法,我们不应该用语音来表达主要的目的吗?
它可以是一种全新的响应方式,以用户为中心的设计,提供了全新的机会,我走进了我的房子,想要打开灯光和音乐,语音是很不错的方法。在会议前,开车路上我可以更新我的salesforce记录,而不是到了办公室再做,语音也是不错的场景。Alexa是一个不错的起点。
最后一个问题:你觉得谁会是最后的赢家,Alexa,Siri,Google Assistant,Cortana,还是别的?
我认为不同的企业会获得不同领域的胜出,Alexa会赢得家庭市场,Cortana会赢得企业市场,Google Assistant和Siri会在车载上取胜,如果你直接与Amazon竞争,可能不太明智。