问题:智能设备的语音交互场景下,技能唤醒的机制是怎样的?
对话式的智能设备,技能(skill / bot)已经成为了标配,这些技能就像是手机里APP一样具备从查询天气到定外卖等各种能力。
手机这种具备可视化屏幕的场景下,点一下即可打开对应APP并使用背后的服务。但是对话场景的模式受限于对话模式,相对复杂些。
抛开设备的唤醒词(alexa、小度小度、小爱同学等设备唤醒词)不谈,开门见山,唤醒词大致有这几种模式:
- 内置技能唤醒
- 第三方常规技能唤醒
- 第三方智能家居技能唤醒
第一种应用于设备的内置技能,即厂商为自己设备开发的技能,权限很高,唤醒也相对简单很多,即任意唤醒。例如:“今天天气怎么样”。想怎么问都能唤醒。
第二种应用于设备的第三方技能,权限相对低,需要更复杂的唤醒。通常有以下几种方式:
- <调用词>,即“维京天气”
- <动词><调用名称>,即“打开维京天气”
- <调用词> <执行操作>,即“维京天气查询今日天气”
- <介词><调用词><执行操作>,即“用维京天气查询今日天气”
调用词即第三方开发者为自己的技能取的名称,参考APP命名。
另外因为语音交互的特性,通常这里的调用词、动词、介词都是相对受限的,例如调用词若有“微信”被预留,那么同音词“威姓”通常也就不能被作为唤醒词了。动词通常也是限于“打开、播放”等相对常用的词汇。
第三种应用于对智能家居的控制。
以Alexa为例,通常唤醒就是:“turn on the kitchen light”。这里kitchen light是The endpoint identifier,即用来标识智能家居的唯一设备。turn on是The capability,即对设备的能力控制行为。针对不同的智能设备,能力都会有所区别。
随着未来语义识别的技术突破,第二种机制将会逐渐向第一种靠拢,演进的更为自然。但是目前,以上三种基本已经涵盖了所有的语音交互场景下的技能调起模式。
系列目录:http://www.jianshu.com/p/efd0d0b90ddf
字典汇总:http://www.jianshu.com/p/6ff2604bbe6b
See you:)