就像咒语一般,它让人类仅仅使用语言就可以控制世界
Jan 7th 2017
这里是原文链接:
http://www.economist.com/news/leaders/21713836-casting-magic-spell-it-lets-people-control-world-through-words-alone-how-voice
英国科幻小说作家Arthur C. Clarke指出,一些足够先进的新技术,和魔法相比似乎别无二制。语音计算技术的快速涌现也证明了他的观点。就像魔法师释放魔咒一般:说出几个字符,旁边的设备就开始依命行事。
亚马逊Echo,一种端坐在桌面上使用语音驱动的圆柱状计算机,,一旦你呼唤她的名字”Alexa“,就可以调用音乐曲目和广播电台,讲笑话,回答问题和控制智能家电;在圣诞节之前,它已经入住约4%的美国家庭。语音助手在智能手机上使用量也在激增:苹果Siri,每周处理超过20亿条命令,在Android手机上,20%的搜索是通过语音输入的。听写电子邮件和短信已经工作的十分可靠并得以广泛应用。当你张张嘴就能解决的事干嘛还要打字?
这是一个巨大的转变。虽然看起来十分简单,语音有一种转换计算方式的能力,这是一种更自然的互动手段。 窗口、图标和菜单,然后是触摸屏,作为更加便捷的交互方式受到追捧,而不是使用键盘笨拙的输入复杂命令。于是,能够与计算机交谈,让了对“用户界面”的抽象变得没有必要。就像手机比连着丑陋电线的座机更好用,汽车的运输能力比马匹更强大,因此,没有屏幕和键盘的计算机,在未来会有无尽的潜力,它可能比人们想象的还要有用,强大和无处不在。
声音不会完全取代其他形式的输入和输出。有时,通过键入而不是语音来与机器交谈更方便(据说Amazon正打算推出一种内置屏幕的Echo设备)。但是语音交互技术注定会在人们与周围的智能设备交互交互时成为一种更加普遍的手段,从你家里的洗衣机告诉你它还剩下多长时间,到企业呼叫中心的虚拟助理。尽管,为了发挥其全部潜力,该技术需要进一步的突破;并拿出一个解决方案权衡便利和隐私。
Alexa,什么是深度学习?
计算机听写系统已经存在多年。但他们并不可靠,需要长时间的训练,学习某一个特定的用户的声音。计算机这种新的能力,是几乎可以可靠地识别几乎任何人的语音,在没有训练情况下;这就是“深度学习”的最新表现,一种人工智能技术,其中软件系统使用数百万的样本,并通过网络挑选训练。由于深入的学习,机器现在几乎和人类抄写的准确性相当,电脑化的翻译系统正在迅速改进文本-语音系统,减少机器人那种呆板,使声音更自然。简而言之,计算机在处理各种自然语言方面变得越来越好。
虽然深度学习意味着机器可以更可靠地识别语音,并采用不那么生硬声音和方式和人类交谈,但他们仍然不能理解语言的意义。这是最困难的问题,如果语音驱动的计算要真正蓬勃发展,这个问题必须克服。计算机必须能够理解上下文,以便保持话题的一致性,而不仅仅是对一次性语音命令简单响应,它们今天大多数是这样的(“嘿,Siri,设置定时器十分钟”)。许多大学和大大小小的企业的研究人员正在处理这个问题,构造“机器人”,可以应对复杂的任务,并进行更复杂的对话,如检索信息、贷款按揭建议及旅行行程安排。 (亚马逊为一个机器人提供了一笔100万美元的奖金,如果可以做到“条理清楚又吸引人”的谈话20分钟)
当咒语代替拼写
使用者和监管机构也可以在确定语音计算的发展方向发挥作用。而今,该技术也带来了一个困境:当语音驱动系统被个性化,并被允许权限访问一些如日历,电子邮件和其他敏感信息源时,其实是最有用的。但这也引起了隐私和安全的担忧。
或许是由于一些技术原因,许多语音驱动设备总是在侦听,等待被激活。有些人已经开始关注在房间中那些智能手机上麦克风,这些设备其实一直保持和网络的连接。不是所有的音频都被发送到云设备,在它们开始将用户的语音中继到服务器,进行真正意义上的处理之前,需要等待触发短语(“Alexa”,“OK,Google”,“Hey,Cortana”或“Hey,Siri”), 但是涉及到音频的存储,目前还不知道是谁保存?存了什么?存了多长时间?
美国警方在调查在阿肯色州的一个谋杀案时,发现现场或许已被亚马逊Echo设备监听,要求亚马逊公司提供任何可能已被捕获的音频。亚马逊拒绝了合作,由此可见,此类请求的合法性非常模糊。类似的情况是苹果公司在2016年拒绝帮助联邦调查局解锁一个恐怖分子的iPhone;这两起事件都凸显了一个问题,是否有一个规定可以明确,什么时候可以用一种看起来十分正当、关乎安全的理由入侵个人的隐私。
广大的消费者会继续采用语音计算的相关技术,即使这些问题仍未解决。在许多情况下,语音比任何其他通信手段更加方便和自然。特别是,它在你做别的事情时也可以使用(驾驶,工作或走在街上)。它可以让一些无法使用屏幕和键盘的人使用计算设备。不仅仅是计算方面,就语言本身来说,它也可能会产生戏剧化的影响。计算机翻译可以在会议的同时提供一种和大部分人无关的小众语言的翻译;在机器可以交谈的世界中,那些少人使用的小众语言更有可能生存。触摸屏的到来是人类与计算机交互方式最新的突破。语音的超越更是如此。
“本译文仅供个人研习、欣赏语言之用,谢绝任何转载及用于任何商业用途。本译文所涉法律后果均由本人承担。本人同意简书平台在接获有关著作权人的通知后,删除文章。”