语音交互界面VUI在增强现实眼镜中的运用(一)

语音交互

接触AR眼镜已经一年多了,在经历的项目中我发现一个有趣的问题,市面上研发的AR眼镜大都具备语音交互的功能但却鲜少有用户用之。对此我开始对语音交互产生了兴趣,并且展开学习。在近期经历的大型项目中,用户使用场景为工业场景,用户佩戴上AR眼镜需要配合Pad终端完成工业检修工作。在这个工作中,用户需要同时手持pad终端和佩戴AR眼镜对设备进行一系列查看,并将数据同步至Pad终端。(同步数据的操作会由服务器周转来实现,并通过OCR识别,图像识别记录数据,其容错率低于10%,所以不排除人为需要手动修改数据的可能)。由此,我便产生了疑问,觉得语音交互在这个场景下应该是个好东西啊!(这里找了一张钢铁侠佩戴AR设备并对机器进行语音操作指令的图片,这并不会妨碍他利用双手拯救世界嘛!)


电影《钢铁侠》镜头

在进入跟AR相关的语音交互运用内容前,首先让我们简单了解一下语音交互在国内外的发展现状。早在1968年的电影《2001太空漫步》中,就出现了最早回应语音指令的智能计算机的概念,由此便开启了人类对语音交互可能性的探索和认知。

Nuance是全球最大的语音技术公司,其专利及市场份额皆为领军。苹果Siri,三星语音助手及各大航空公司都采用其技术。

微软利用深度神经网络技术将语音识别错误率降低至18.5%(要知道,在语音识别领域,任何5%的提升都是革命性的),这也是大大提升了语音技术商业化的潜力。

Google则开放其api,覆盖80种语言,发展出众多的使用案例,其编辑的语言设计文档,阅读之后我也是从中获益良多。(https://developers.google.com/actions/design/)

苹果公司通过挖人,收购技术也让siri在移动终端中崭露头角。

亚马逊则是研发了Echo音箱,结合其互联网服务入口的优势,将语音交互带入了普通家庭的生活服务中去。

而国内,被誉为中科院典范的科大讯飞则占据国内超过60%市场份额的语音识别引擎的霸主地位。其次是百度,投入重金斩获近13%的市场份额,语音技术也十分成熟。除此之外,许多大型公司都搭建起了自己的语音识别引擎,目的多半自产自销,自研自用。

这样的一个现状可以看出语音技术已经成熟,但又为什么很难成为主流的交互手段呢?在正式结合AR眼镜使用语音交互进行分析前,我想再聊聊构成语音交互的准则(或准确的说语音交互中对话的准则)、其需要待解决的问题以及语音交互使用的用户场景。

语音交互是否行得通取决于两点:语音识别和语义理解。这是技术的核心,但文章所涉及的主要以VUI为主,所以不多做展开。

语音交互除了从技术上实现对于语音和语义的理解以外,其重要的部分在于“对话”,学会对话是语音交互的灵魂。对话的四点准则可概括为:质的准则、量的准则、相关准则、方式准则。简单来说就是要确保对话过程之中的信息真实有效,且与对话内容相关,说话需要直截了当和清晰明了。 补充一种说明,便于理解,人与人在交流的过程中能够相互理解对方因为习惯性所吞噬的某个词语,某个表达方式,但是机器就像是跟你语言不通的外国人,要想让机器了解你在说什么,所说的对话内容需要是既定的,学习过的,有目的性的,以及在相应对话中所包含过可以被理解的信息内容。现在语音交互中所存在的最大的问题也是待解决的问题就包括了对信息的辨别,即在对话过程中所产生的:对自然语言的识别和理解问题语言信息量大的问题语音的模糊性问题;以及环境噪声和干扰对语音识别影响的问题

这些问题似乎是困扰语音交互发展的棘手问题,然而并不是很难被解决。这就需要产品在设计之初,需要考虑到语音交互所需要的用户场景。考虑用户场景是十分重要的,但往往很多涉及到语音交互类产品容易走向误区,他们宁愿去满足足够多的功能,也不愿意试图满足用户的真正意图。举个例子,一家汽车厂商在推出车载语音系统时添加了很多无用的冗余功能,于是售后就在用户购买此车之后接受到了很多关于语音车载系统的抱怨和投诉。其后期的运营成本更加的多了。因此在考虑用户使用场景的同时,要以用户的使用意图为优先考虑,才不会事倍功半,误入歧途。我笼统的归纳了用户需要启用语音交互方式的场景:需要释放双手的情况需要做到快速回复的情况具有一定私密性触发一些操作指令的情况

这里我开始结合AR眼镜的使用场景做进一步分析。市面上出现的增强现实的眼镜都会拥有一些硬件按钮帮助实现常规的开关机,唤醒机器功能,点击操作等,而由于现在大多数AR眼镜致力于工业,医疗,建筑等领域的科研方向,为这些行业服务会在作业人员使用AR眼镜时无法真正解放双手。举个例子,当一个见习医生初期需要在佩戴AR眼镜辅助下完成主刀手术时,由于手上拿着手术刀、手术钳等器械导致不能点击AR眼镜上的进入下一步操作按钮,如果通过手势去操作势必需要将手上的手术刀放下,再进行手势操作指令,而手术室的场景中不存在多余眼镜设备,不会出现一条语音指令唤起多台设备工作的可能,因此在这个场景下,语音交互似乎变的极具优势。(这种AR辅助医疗方式仅仅是假想的用户场景)所以AR眼镜作为另一种较为新型的移动终端似乎也是语音交互系统绝配的载体。巧合的是,AR眼镜问世的最大目的也是为了解放用户双手啊!

简单描述了语音交互在AR眼镜中的用户场景,之后会进一步对AR眼镜下语音交互中所设计到的“对话”做进一步研究和学习。分享一张Google的语音系统规范中提供的图片,帮助VUI设计师在建立语音交互的“对话”时需要考虑的要素。


Google语音交互文档规范说明图

在之后的文章中会写到在AR眼镜终端中语音用户界面基本设计原则;人物模型,虚拟形象和声音模型的选择;语音用户界面设计进阶问题;在AR眼镜使用中语音用户界面的用户测试以及VUI建立后需要做的测试研究。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容