未来AI产品的人机交互应该长成什么样?
工业时代,是机器与人的交互。通过几个按钮就可以实现已有功能,仅能实现机器中几个预先编码好的功能。
互联网时代,是软件与人的交互。手机、电脑屏幕的出现,使人们可以从二维图形世界中选择自己想要的功能选项。虽然功能选择项可以无限增加,但仍然是我们预先编码好的功能。
AI时代,是人与具备像人一样思考能力机器的交互。想象人人交流,会有按钮、会有屏幕让你选择对话内容吗?AI时代的人机交互,人们没有预选项,你问我答,仅此而已!
那如何实现让人机交互更加顺畅?
和尚:这位施主,贫僧有理了,请问白马寺怎么走?
绣娘:您沿着这条河一直往上游走就能到!
以上是和尚和绣娘问路的对话,假设绣娘是AI,那绣娘怎么才能回答和尚并给和尚指路呢?
需基本经过这四个步骤:听到——听清——听懂——反馈
首先AI绣娘需要听到和尚的话(激活对话模式),然后听清和尚的话(如果周围杂音较大),然后听懂(需要识别和尚话中的关键词),最后进行反馈(搜索关键词,寻找答案,将文字转换成人的语言说出来)
听到:AI平时都是出于休眠状态,那该如何让AI听到主人的话呢?
可以运用“语音激活”技术和“声纹识别”等技术。“语音激活”将AI从休眠状态激活。常见的“语音激活”有2词、3词(4词以上就不太好用了,谁愿意喊四个字的名字?)比如:Rokid的“若琪”,百度的“度秘”,分身鱼的“小鱼”;AI通过“声纹识别”找出不同的发音单元,做出不同的回应(人和人的发音、语调都有所不同)。
听清:如果周围杂音较大,该如何听到主人的声音?
可以从设备和算法两方面入手,使用“麦克风降噪”和“回声消除”等技术。
听懂:AI源于搜索,搜索源于文字,故目前AI识别文字(未来AI可不可以直接识别语音,这很有可能实现哟)。那当我们听清楚这句语音了,那我们该如何将语音转化为AI才能识别的文字,并理解这句话的含义呢?
运用“语音识别”和“自然语言处理”等技术。“语音识别”又叫语音转文字技术(STT),可以实现将语音转换成文字;“自然语言处理”对文字的理解,并推测接下来如何做!
反馈:AI将答案整理出来,却仍是文字形式,还需AI将文字转成语音说出来,怎么做呢?
运用“语音合成技术”(TTS)和“回音消除”等技术。“语音合成”技术把文本转换成人的语言读出来。由于AI自己讲话时,可能AI正在放着音乐,那就需要用到“回音消除”技术,努力使AI说的话更加清晰。
(学习资料整理“Rokid博士团分享”)