如今,Apple有Siri,Google有Google Now,Microsoft有Cortana,Amazon有Echo;国内大小互联网公司诸如百度、科大讯飞、出门问问也都有自己的语音服务。语音控制不仅应用在手机屏幕,还同样用于以下各种使用场景:客厅家居、智能手表、车载系统、PC电脑。基于语音的交互方式似乎已经到了爆发的前夜,只差那么一点儿,就可以成为下一个鼠标键盘式的新交互方式,走入寻常百姓家。
但毕竟还是差了那么一点儿。即便语音控制已经成为当今智能手机的标配,又有多少人会利用语音向手机发出指令呢?少之又少。很大一个原因——正如罗永浩所说——是因为语音交互面临着用户的心理障碍。
罗永浩解释的第一个原因,是人们无法容忍一个没有达到智能水平的设备跟他耍聪明:
从人的正常角度来讲,如果一个软件在你面前装聪明,你会想要去戳穿他,于是他马上就被戳穿了。
第二个原因,是在他人面前使用语音交互的尴尬。
当你使用语音软件时,别人会怎样看你?
在我看来,这两个原因其实说的是一个问题:智能语音不够智能。
语言是种非常自然的交流方式,它的特性决定了人们一直以来对语言交流的期待。尤其是面对面沟通时,我们渴望立即获得回应,并且最好也是声音反馈。因为语言本身是多变而复杂的,理解自然语言也就需要更高的智力。我们期待的是和具有相应智力水平的个体进行对话。
这样看来,当下的语音交互存在三个主要问题,它们像是横亘在人们面前的屏障,阻碍人们自然地使用语音来控制设备。这三个问题可以概括为,现今的智能语音不够智能,而人们总是习惯和理解自己话语的人进行自然的语言对话。
问题1
智能语音并不能真正理解人的语言,它不具备人类的智力。现在的智能语音停留在对关键词的内容识别和上下文分析,而机器是没有“语感”的,也不懂得什么语法。这样一来,以人类智力来理解,机器就显得很蠢,而试图和它沟通交流的行为也就显得很蠢。类似的行为其实也适用于文字交流,一旦对话的情境被建立起来,人们就希望对话者的智力水平足以和自己相当。
现实生活中,也存在着和智力水平不达标的事物进行语言交流的现象,比如和幼童说话、对宠物说话,甚至是对花草树木说话。但这种情况下,人们是不期待获得回应的,低预期也就降低了回应失败的尴尬。
但是智能语音往往被塑造为成年人形象(通过音色设定来塑造形象),让语音交互变得普及也需要建立起用户的预期。而智力水平确实是语音交互最大的短板。
问题2
当人们用语言进行交流的时候,通常希望立即获得回应。与文字书信不同,语言交流在过去往往是面对面,所以交流是即时完成。即便有了电话之后,语言交流仍然保持着即时性。
有两种形式的语音交流打破了这种即时性:对讲机和即时通讯应用。在这两种场景下,对话者的语言是“互斥”的,不会出现声音的重叠和打断,因此对话者也就没有被置于一个共通的虚拟空间中。它所造成的结果,是这两种形式的语音交流无法提供面对面或电话交流时的畅快感和现场感,也就缺少一部分“对话”的体验。
与之同理,语音交互因为互斥性的特点,很难被当作是和机器对话。所以Siri式的仿自然语言交流也会缺少对话的现场感。
问题3
语言交流的即时性还有一个结果,就是人们期望对声音的反馈也是声音。语言沟通是快节奏且高效的,文字表达则有一定的延迟。当一个人处在即时状态下的高效表达时,对方以慢速的文字作为回应会让沟通现场显得不协调。这也是为什么语音交互一定要配以声音反馈,哪怕是你对Siri说“给老爸打电话”,在它完成这一指令之前,也一定要回应一句:“正在拨打父亲的电话”。
但问题在于,语音合成的技术实力还没有达到人们的期待。生硬的、机器化的声音表达,无时无刻不在提醒着这个对话者是“非我族类”,语音合成的生硬效果也在阻碍着人们将机器视为同等智力水平的个体。(你也许会想到电影《星际穿越》中的机器人Tars,生硬的合成语音效果正是为了突出它的机器身份。)
当下的智能语音产品中,比较讨巧的办法是先不追求语言沟通的现场感,而将语音作为对机器进行发号施令的一种替代性方式。面对语音识别的设备,人们说出“拨打XX的电话”这样的语音指令,要比说“你帮我打个电话给XX吧”这样的交流方式,少一分尴尬。也正是将语音交互的预期降低,才能让一些喜欢尝鲜的极客们放下心理芥蒂,对机器说出指令。
但如果走在大街上,周围都是同行的路人,你会对着iPhone大声说“阅读我刚刚收到的短信”吗?显然不会。因为语言沟通的特性,导致大众对语音交互的期待其实是很难被降低的。
那么语音交互倘若想达到电影《Her》中以假乱真的状态,得先解决好以上三个问题才行。