计算机行业变革的源动力
科技改变生活、改变世界——计算机技术的兴起与发展历程最真切有力地证实了这一点。
二十世纪末期,微软、苹果用鼠标点开了PC时代的大门,让个人电脑走进千家万户,使得信息的传播摆脱了时空的束缚。
二十一世纪初,苹果、谷歌在触屏上划开了移动时代的帷幕,让智能手机风靡全球,使得社交和娱乐无处不在。
作为计算机领域最具典型性的两种不同形态的产品,个人电脑和智能手机均以独有的方式让千千万万的人们普遍认可和接受,从而引发了时代的变革。
早期电脑依赖于键盘和字符屏幕的交互体验模式将多数人拒之于计算机的门外,而依赖于鼠标点击的图形用户界面交互模式的发明无疑极大地降低了普通民众使用和理解个人电脑的门槛,使得PC时代的步伐悄然而至,进而深刻地影响了人们的生活。
传统手机依赖于实体键盘或笔触交互的体验模式,让手机的使用总显得不那么称心如意,而依赖于多点触控的交互体验模式无疑使得人们对手机的操作更加得心应手方便快捷,使得移动时代的浪潮汹涌而至,从而改变人们日常生活的方方面面。
事实表明,引发计算机时代变革的真正动力,源于技术,却并非纯粹的技术。确切的说那是一种建立在计算机技术上的一种最友好便捷的人机交互体验模式。
这是一个用户体验至上的年代,计算机的使命是为人们创造出一个简单可依赖却又不乏趣味的多彩世界,只有最大限度地降低人们的学习和使用成本,才能创造出最具普适性的大众产品。
前智能时代面临的问题
紧随移动时代的步伐,我们即将迎来一个全新的计算机时代——智能时代。在这个时代,一切设备都将被纳入到计算机互联网组成的体系中接受支配和调动。那将是一个随心所欲的时代,一切设备的控制和调动都将变得轻而易举和不费吹灰之力。
为了迎接美好智能时代的到来,人们仍在不断地努力和尝试。然而,何谓智能时代,智能时代用户的真正诉求和痛点何在,究竟什么才是真正的智能,这些问题目前似乎尚未形成普遍的共识或意识。
在我们目前所处的这个前智能时代,探索者们通常的做法是,用智能手机触屏方式来控制我们的设备以求达到便捷控制的目的。那么既然如此,我们为什么不直接制造出一个智能的万能遥控器来实现这种控制呢?手机的使命不是应该定位于娱乐和社交才更加合理吗,设备的控制是否该请另请高明,智能时代是否一定需要与智能手机和它的那一套触屏操作模式捆绑在一起呢?那是真正的智能吗?
值得注意的是,智能时代应该是一个不同于PC时代和移动时代的全新计算机时代,设备与人的距离已经超出了人手的势力范围,设备的反馈模式也脱离了屏幕的限制,依赖于双手和双眼的触屏交互模式对于用户而言显然已经有些力不从心和差强人意。
或许,智能时代亟需寻求一种不同于PC和手机的全新的用户交互模式,来引发计算机领域的再一次革新,来使得智能的理念深入人心。
一次任性的构想
不妨做如下一个构想,在你的家居系统中,存在很多不同类型的设备,包括电视、冰箱、空调、洗衣机、电灯、空气净化器等等。这些设备与传统的设备在核心功能上没有本质区别,甚至更加专一和简单,但是他们都具有一个共同的神奇特点——那就是听主人的口令行事。
作为主人的你,首先需要为每一个设备取一个个性化的名字,比如电灯就叫他丁丁,空调就叫他大个头,电视就叫做小明。然后就有这样一种交互场景:
你说:丁丁,开灯!
电灯回应:丁丁得令,丁丁已开灯。
你说:大个头,启动空调!
空调回应:大个头得令,大个头已启动空调!
你说:大个头,播报温度!
空调回应:大个头得令,当前20摄氏度!
你说:丁丁,关灯!
电灯回应:丁丁得令,丁丁已关灯!
你说:小明,湖南卫视!
电视回应:小明得令,小明已跳到湖南卫视!
你说:小明,关机!
电视回应:小明得令,小明已关机!
这将是一个美妙的场景,在这个场景中一切设备都被拟人化了,成为了听你口令调遣的仆人,语音成为你们之间最便捷的沟通方式。而你的双手和双眼也因此得到了解放,再也不用望着狭小的触屏点来点去了。不知道这样一种构想是否会让人有些小小的激动和期待。
任性的核心要领
在我们所构想的那个美妙场景中,有以下几点要素需要明确和强调:
一、每个设备都具有至少一个由“主人”录入(或系统默认指定)的个性化的语音名称,这个语音名称将被系统用来确定“主人”命令下达的对象,因此不同设备其名称不能相同;
二、每个设备具有限的语音指令集,每条指令均可个性化定制或者由系统默认指定,这个语音指令也是系统决定使用何种指令的根本依据;
三、设备指令执行的结果全部由预设的系统语音播报,播报效果友好(音色甜美柔和富有感染力)且语义明晰。
总之,一切的要旨都是追求语音交互的极致体验,让人与设备的交流畅通无阻亲切自然,让语音的这种交互模式成为另一种全新的简单可依赖的人机交互模式。
理想的现实基础
从已有的技术现状来看,实现这样一个拟人化的家居系统似乎并非遥不可及,甚至可以说技术条件已然具备。其中最关键的问题在于语音指令的识别。
现如今,语音识别技术在软件互联网科技行业已经并不新鲜,甚至趋于成熟。或许识别准确率的问题仍然是这项技术的一个现有瓶颈,但需要明确的是,在构想中的那个拟人化的智能家居系统中,我们并不需要完全的语音识别,确切的说,我们需要一种语音指令匹配技术。当“主人”发出一个语音指令时,系统需要在有限的指令集中挑选出匹配度最高的一项指令来执行,并反馈执行结果。我们有理由相信,在现有的语音识别技术水平上,语音指令匹配准确率可以达到一个实用性的高度。
在这样一个智能体系中,控制中心负责语音指令的接收、匹配与分发,语音接收器是一个必备的终端,其他的设备作为接受控制的目标设备。每当一个目标设备接入系统时需要注册设备语音名称、设备指令集以及设备反馈集。而设备指令执行的反馈结果播报既可以直接由语音接收器来完成,也可以由执行指令的目标设备来完成,可视场景而定。
对于语音接收器来说,手机可以是一个常规的选择,但更可以有无限的想象空间,比如一个智能手表、智能手环、智能钮扣或者对讲机之类等等,甚至也可以是隐匿于建筑物之中的语音接收器。总之,那将是一个充满无限可能的个性化设备。
潜在的问题
当然,这样的一种系统也难免会存在一些问题或者漏洞。
最显著的如识别准确率的问题,即由距离和环境噪声等因素导致的识别问题,这些问题有赖于研究者们探索出更可靠的办法来逐步优化和解决。
某些场景下可能还会涉及安全问题,比如,如何解决语音开门时的安全性问题?任何一个人模拟下达开门的用户指令系统是否都要执行?
不过,倘若指令的接收器是用户如同钥匙一样随身携带的物品(如智能手表),那么这个问题就不是问题了。即便语音接收器被直接固定到墙上了,我们仍可以使用音频指纹、人脸识别、指纹识别或者任何其他有效的途径来共同协助完成身份的识别。
除安全问题外,同时可能还会涉及到用户隐私问题。比如在私人场合,语音接收器是否需要全程开启,这难免会让人担心正常的人与人之间的语音交流泄漏到互联网。这种担忧却也并非关键问题,一种语音接收器启停的合理触发机制可以有效解决这种担忧。
尽管语音交互体验模式或许潜存诸多问题,但倘若人们一旦发现并认可了它的无限潜力,那么我们相信这种模式定会在世人的集思广益和共同努力中不断被优化、改进和完善,以至达到极致体验。
期待一个美妙的声音的世界
这是一个充斥着各色大大小小电子屏幕的时代,电子屏幕在创造多彩世界的同时也将人们的感官引向了视觉疲劳的边缘。当我们上班需要面对13英寸大小的电脑屏幕办公时,下班了也一刻离不开那块5英寸大小的手机屏幕。屏幕无疑丰富了我们的世界,却也成为我们生活的羁绊,在屏幕的世界里,人们的感官能力陷入了一种使用失衡的畸形状态——我们太过依赖于我们的那双业已疲惫的双眼了,当我们走在车水马龙的街道上时,我们的眼睛显然已经不够用了。
既然感官已失衡,视觉已疲劳,何不有所改变,换用听觉呢?不要看形与色的世界如此炫丽多姿令人依恋,其实声音的世界同样可以五彩斑斓美妙无比,或许语音本可以如同文字和画面一样很好地描绘这个世界、表达人们的意念,甚至在某些场合更加完美恰当,只是不过,语音的潜在魔力还远未被发掘出来。
美好的智能时代,需要由一种全新的人机交互模式来开创和缔造,但愿语音能够分担这一历史级的使命,在这个视觉疲劳的时代解放我们的手和眼,创造出一个拟人化的世界,引领智能时代的真正到来。
我能想到最任性的智能世界便是,我在这头呼唤:芝麻,开门!
而在计算机的另一头有一个甜美的声音回应:芝麻得令,芝麻已开门,欢迎主人回家!
期待任性的语音时代的到来。
2014-12-31
Geen