远古时代,人类之所以能区别于其他动物而最终攀升到食物链的顶端,正是因为人与人之间的协作复杂而高效。计算机时代,人与机器的协作逐渐变得越来越重要。如何更好的让机器学习人类的沟通方式从而实现人与机器更好的互动一直是人类不断探索的方向。在上个世纪70年代计算机刚刚被发明出来的时候,最让科学家们头疼的是如何让人们认识到计算机的强大能力而不被它繁杂的操作方式吓倒,于是历史上最著名的交互设计图形用户界面(GUI)诞生了。到了90年代以后,随着智能手机的不断普及,键盘的应用开始在手机上大行其道。到了20世纪,人们发现了更高效直观的交互手段,2007年iPhone系列的推出宣告虚拟键盘和多点触控时代的来临。十年后的今天,语音交互正在蓬勃的兴起,不知不觉中它已经开始重新定义我们的生活方式了。
今天的主角是Amazon Echo。Echo出身于Amazon 大名鼎鼎的Lab 126,这个类似于GoogleX的部门,据说是杰夫贝索思看了《创新者的窘境》之后深以为然,亲自挑选各路人才创立的。它号称拥有资源的”无限开火权“,可以脑洞大开的设计任何他们认为能改变世界的产品。126寓意从A到Z的26个字母,表明了Amazon要重新定义世界的野心,与Google的新名字Alphabet不谋而合。而这个天才实验室的第一个项目A便是文青标配的Kindle。B项目是手机项目Fire Phone,2014年黑色星期五之后的一个月,Fire Phone经历了从645 USD到199USD的史上最大调价,其中还包括一年价值99USD的亚马逊会员。这是Amazon为数不多的失败之一。很多媒体总爱拿这个项目说事儿,在面对BusinessInsider的采访时,贝索思的回应铿锵有力:”我遇到过无数的挫折,如果我老想着这些失败,那就像不打麻药做手术。”台下一阵哄笑,他继续说:“这些事不好笑也不重要。重要的是要持续进行探索,因为如果公司不能接受失败,最后就会变得绝望,到时候,他们唯一能做的就是在濒死前打个冷颤“。就在黑色星期五来临之际,项目D Echo发布了,这款产品很快会让他们体会到人生的真谛就是死去活来。
Echo在立项初期完全是一个没有野心的项目,那时候似乎没有人认为世界上有比手机更重要的产品,至少不是音箱。所以大家对它的期望不高,团队也没有清晰的产品定位,要说有可能也是类似Echo Dot那样在某个角落收集指令。尽管如此,原本计划了6个月的开发周期最后做了三年。就在Echo将要发布前不久,一个工程师用自制程序控制电视的项目让贝索斯茅塞顿开。那才是Echo该做成的样子,之前的产品定位太小气了!随后市场反馈也证明了这个方向是对的,Echo在两周内就获得了超过100万的预定,iPhone在上市后70天也达到了这个数字。虽然这样的对比过于草率,但是变化往往在被注意到之前就悄然发生了。
恰如App Store之与iPhone,语音助手背后也需要一整个生态系统给它赋能。截止2016年底Echo 销售量达到520万台,其语音助手Alexa已经掌握了5100项技能,同时Echo带来的飞轮效应让其拥有者在Amazon上的消费增加了10%
插句题外话,为什么杰夫贝索斯总能引领时代的潮流?
这就要说到他过去的经历了,德州的少年天才,普林斯顿毕业,29岁做到了传奇投资公司DESCO的副总裁,华尔街的青年才俊。然而就在事业巅峰,他看到了互联网的潜力,毅然决定离开华尔街,一头扎进互联网的创业浪潮中。之所以会选择卖书这个行业,是因为各家没有太大的产品差异,这样他可以更专注的提高用户体验。离开优渥的华尔街,投身于不确定性极大的互联网商业,杰夫贝索斯这种开阔的视野,敏锐的嗅觉和强悍的执行力决定了他是天生的创新者。“决定胜负的瞬间不是一只脚有没有踏进未来,而是另一只脚有没有从过去离开。”
话说回来,Echo虽然是一个音箱,但其对声音的追求跟其他普通音箱是完全不同的。Echo 配备了6+1MEMS麦克风阵列,是为了满足远场语音交互的需求应运而生的。所谓的远场语音交互泛指4.5米以上的语音交互。
语音交互本身涉及了非常复杂的技术,其核心包括声学处理,语音识别,语义理解和语音合成等技术。
-声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下人的声音;
-语音识别则是把听到的人声翻译成文字;
-语义理解则是分析这些文字的意义;
-语音合成就是把机器要表达的文字翻译成语音;
以SIri为代表的近场语音识别技术已经发展了60余年,但一直不温不火。直到我们发现用户的真正需求是Echo这样的远场语音识别。而拾音距离的扩大带来的技术问题不仅仅是语音信号的衰减,还有复杂的环境和用户习惯造成的干扰。近场语音识别要求的是低噪声,无混响,距离声源很近的场景,同时还要求用户满足标准发音,识别率能达到95%以上。但是若声源距离较远,真实环境存在大量噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同时,真实环境中常常会出现多人说话的情形。当前的语音识别引擎都是单人识别模式,无法同时处理多人识别的问题。麦克风阵列技术实际上是一种声学处理方法,是解决这些问题的主要途径。选择麦克风的时候有很多参数是需要考虑的,比如灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级、一致性。其中最后三个是麦克风最主要的性能指标。Echo之所以选择MEMS麦克风也是因为它一致性较好。
9月28日亚马逊推出第二代智能音箱Echo 2Gen和Echo Plus, 售价分别为99.99USD和149.99USD,10月31号正式发售。此外还有一个售价129.99USD的Echo Spot(带屏幕)算是Echo Show的第二代产品。
这次升级的主要方向有四个:
1.更好的声学设计和声音单元配置,实现杜比声效;
2.加强了对第三方智能硬件设备的控制;
3.优化了远场拾音技术,优化嘈杂环境中的唤醒功能和消除噪音技术;
4.支持北美特定区域间的打电话和发短信服务;
简单介绍下杜比声效。它由美国杜比实验室推出的,在原来左右两个声道的基础上再分出两路信号,分别是前中置声道和环绕声道。因此典型的杜比立体声系统由4-5个音箱构成。我们知道传统的声道系统只能让人感受到左右方向上的声音区别,因此这是一种平面声音系统,不能产生前后声音的纵深差别。而杜比声效加入了纵深信息,使声音听上去更加有层次感和方向感。
从统计数据上看,自2014年发售以来,Echo系列产品累计销量超过1000万台,销售额8-10亿美元,占美国市场份额70.6%。可以说是当之无愧的领跑者。
然而亚马逊也不是没有对手,Google和Apple都有可能结合各自的产品生态特点走出一条不一样的路。比如Airpods。
为什么一款耳机会对音箱构成威胁?因为它开辟了一个完全不同的应用场景。
很多人应该都还记得当年与Airpods一同发布的还有iPhone7和iPhone7S,这两款iPhone最大的改变是取消了所有人都熟悉的3.5mm的耳机孔,苹果发出了一个明确的信号:无线耳机才是未来。最新的统计结果显示,Apple Airpods目前占据了85%市场份额的无线耳机,并在全球饱受好评。同时这款耳机有一个美妙的应用:可以通过轻轻敲击Airpods唤出Siri。
上面说到Siri至今一直不温不火,原因无非有三个:
1.语音识别不准,导致交互体验差;
2.智能程度不够,无法正确理解用户发出的指令;
3.使用起来让人略显尴尬,尤其是在公众场合对着话筒说话是不自然的;
随着人工智能的突飞猛进,第一第二点最终都会被解决。而Airpods解决的就是第三点。这是一个天才的想法。想象一下当你戴上Airpods的时候就不用把手机拿在手上了,只要随时轻敲两下耳机就可以对Siri发号施令了。这和我们人与人之间的交互已经很接近了。它就像你的办公室助理一样,你让它安排个会议,订一张机票整个过程非常自然。而Airpods能有这样的表现,和它底层的硬件基础有密切关系。它搭载的W1芯片解决了很多蓝牙无线耳机固有的技术问题: 噪声过滤、低功耗、精准语音捕捉等等。设想,如果W1芯片不断进化成为更先进的处理器,然后Airpods开始有了自己的App,能赋予Siri更多的技能,那这个”轻轻敲击“就不再仅仅是个耍帅的动作了,而Airpods也会成为独立于iPhone和Mac之外新的计算平台。其实就在不久前Apple推出的Apple Watch Series3 上就已经搭载了W2芯片,内置e-SIM卡,同时更好的支持了Siri,能在没有手机的情况下直接和Airpods连接。不得不佩服苹果在这方寸之间酝酿的深意。
小结:
智能音箱以其使用便捷性、网络连接性、技能扩展性正慢慢的成为当代人机交互的主流,恰好智能耳机也带有同样的属性,同时它还具有私密性,传感器兼容性,离用户更近(便于多样化的数据采集)等独特优势。让我们大胆的预测下,或许苹果会在这场交互升级中亲手杀死iPhone,毕竟2007年当苹果推出iPhone时埋葬的那个叫iPod的产品每年给公司贡献的收入接近总收入的一半。